El poder de los incentivos: Las fuerzas ocultas que moldean el comportamiento

“Nunca, jamás, pienses en otra cosa cuando deberías estar pensando en el poder de los incentivos”.

– Charlie Munger

Según Charlie Munger, sólo hay unas pocas fuerzas más poderosas que los incentivos. En su discurso La psicología del juicio humano, reflexiona sobre cómo el poder de los incentivos nunca le decepciona:

Bueno, creo que toda mi vida he estado en el 5% superior de mi cohorte de edad en cuanto a la comprensión del poder de los incentivos, y toda mi vida lo he subestimado. Y no pasa un año sin que me lleve alguna sorpresa que lleve mi límite un poco más lejos.

A veces, la solución a un problema de comportamiento consiste simplemente en revisar los incentivos y asegurarse de que se alinean con el objetivo deseado. Munger habla de Federal Express, que es uno de sus ejemplos favoritos del poder de los incentivos:

El corazón y el alma de la integridad del sistema es que todos los paquetes tienen que desplazarse rápidamente en una ubicación central cada noche. Y el sistema no tiene integridad si todo el turno no puede hacerse rápidamente. Y a Federal Express le costó mucho conseguir que la cosa funcionara.

Intentaron la persuasión moral, lo intentaron todo, y finalmente a alguien se le ocurrió la feliz idea de que pagaban al turno de noche por horas, y que tal vez si les pagaban por turnos, el sistema funcionaría mejor. Y he aquí que esa solución funcionó.

Si intentas cambiar un comportamiento, la razón sólo te llevará hasta cierto punto. Reflexionando sobre otro ejemplo en el que los incentivos desajustados obstaculizaron las ventas de un producto superior, Munger dijo

Al principio de la historia de Xerox, Joe Wilson, que entonces estaba en el gobierno, tuvo que volver a Xerox porque no podía entender cómo su mejor y nueva máquina se estaba vendiendo tan mal en relación con su máquina más antigua e inferior. Por supuesto, cuando llegó allí, descubrió que el acuerdo de comisiones con los vendedores daba un tremendo incentivo a la máquina inferior.

Ignorar los incentivos casi nunca sale bien. Pensar en los incentivos de los demás es necesario para crear relaciones en las que todos ganen.

Podemos recurrir a la psicología para obtener una comprensión más estructurada y profunda de cómo los incentivos dan forma a nuestras acciones.

La ciencia del refuerzo

La ciencia del refuerzo fue impulsada por Burrhus Frederic Skinner (normalmente llamado B.F. Skinner), profesor de psicología en Harvard desde 1958 hasta 1974.

Skinner, a diferencia de sus contemporáneos, se negaba a formular hipótesis sobre lo que ocurría en el interior (lo que pensaban y sentían las personas o los animales) y prefería centrarse en lo que podemos observar. Para él, centrarse en cuánto comía la gente significaba más que centrarse en medidas subjetivas, como el hambre que tenía la gente o el placer que obtenía al comer. Quería averiguar cómo las variables ambientales afectaban al comportamiento, y creía que el comportamiento está determinado por sus consecuencias.

Si no nos gustan las consecuencias de una acción que hemos realizado, es menos probable que volvamos a hacerla; si nos gustan las consecuencias, es más probable que volvamos a hacerla. Esta suposición es la base del condicionamiento operante, “un tipo de aprendizaje en el que la fuerza de un comportamiento se modifica por [sus] consecuencias, como la recompensa o el castigo”. ¹

Uno de los inventos más importantes de Skinner fue la cámara de condicionamiento operante, también conocida como “caja de Skinner”, que se utilizaba para estudiar los efectos de los reforzadores en los animales de laboratorio. Las ratas de la caja tenían que averiguar cómo realizar una tarea (como empujar una palanca) que las recompensaría con comida. Este sistema automatizado permitió a Skinner y a miles de sucesores estudiar la conducta condicionada en un entorno controlado.

Lo que los años de estudios sobre el refuerzo han revelado es que la consistencia y el tiempo juegan un papel importante en la formación de nuevos comportamientos. Los psicólogos sostienen que la mejor manera de aprender conductas complejas es mediante el refuerzo continuo, en el que la conducta deseada se refuerza cada vez que se realiza.

Si quieres enseñar a tu perro un nuevo truco, por ejemplo, es inteligente recompensarle por cada respuesta correcta. Al principio de la curva de aprendizaje, el hecho de que no respondas inmediatamente a un comportamiento positivo puede ser malinterpretado como una señal de comportamiento incorrecto desde la perspectiva del perro.

El refuerzo intermitente es un refuerzo que se da sólo algunas de las veces que se produce la conducta deseada, y puede hacerse según varios horarios, algunos predecibles y otros no (véase “Programación del refuerzo”, más adelante). Se afirma que el refuerzo intermitente es la forma más eficaz de mantener una conducta ya aprendida. Esto se debe a tres razones.

En primer lugar, recompensar la conducta resta tiempo a la continuación de la misma. Pagar a un trabajador después de montar cada pieza en la cadena de montaje simplemente no tiene sentido.

En segundo lugar, el refuerzo intermitente es mejor desde el punto de vista económico. No sólo es más barato no recompensar cada vez que se produce un comportamiento deseado, sino que, al hacer que las recompensas sean imprevisibles, provocas la excitación y así consigues un aumento de la respuesta sin aumentar la cantidad de refuerzo. El refuerzo intermitente es como funcionan los casinos; quieren que la gente juegue, pero no pueden permitirse que la gente gane grandes cantidades con mucha frecuencia.

Por último, el refuerzo intermitente puede inducir resistencia a la extinción (detener la conducta cuando se elimina el refuerzo). Considera el ejemplo de resistencia expuesto en el libro de texto Psicología: Conceptos básicos:

Imagina dos jugadores y dos máquinas tragaperras. Una máquina paga inexplicablemente en cada prueba y otra, más habitual, paga en un horario imprevisible e intermitente. Ahora, supón que ambos aparatos dejan de pagar de repente. ¿Qué jugador se dará cuenta primero?

La mayoría de nosotros probablemente lo adivinaría:

El que ha sido recompensado por cada tirón de la palanca (refuerzo continuo) se dará cuenta rápidamente del cambio, mientras que el jugador que ha ganado sólo ocasionalmente (con refuerzo parcial) puede seguir jugando sin recompensa durante mucho tiempo.

Refuerzo programado

El refuerzo intermitente puede utilizarse en varios horarios, cada uno con su propio grado de eficacia y situaciones a las que puede aplicarse adecuadamente. Los programas de relación se basan en el número de respuestas (la cantidad de trabajo realizado), mientras que los programas de intervalo se basan en la cantidad de tiempo empleado.

Los horarios de relación fija se utilizan cuando pagas a tus empleados en función de la cantidad de trabajo que realizan. Los horarios de proporción fija son comunes en el trabajo autónomo, donde los contratistas son pagados a destajo. A los directivos les gustan los horarios de proporción fija porque la respuesta al refuerzo suele ser muy alta (si quieres cobrar, haces el trabajo).
Los horarios de relación variable son imprevisibles porque el número de respuestas entre los refuerzos varía. Los teleoperadores, los vendedores y los jugadores de máquinas tragaperras tienen este esquema porque nunca saben cuándo se producirá la próxima venta o la próxima gran ganancia. El propio Skinner demostró el poder de este horario mostrando que una paloma hambrienta picotearía un disco 12.000 veces por hora, mientras que sería recompensada por término medio sólo cada 110 picotazos. Como es lógico, este es el tipo de refuerzo que normalmente produce más respuestas que cualquier otro programa. (Variar los intervalos entre los refuerzos es otra forma de hacer que el refuerzo sea imprevisible, pero si quieres que la gente se sienta apreciada, probablemente este tipo de programa no sea el que debas utilizar).
Los programas de intervalo fijo son el tipo de pago más común: recompensan a las personas por el tiempo que dedican a una tarea específica. Ya habrás adivinado que el índice de respuesta en este esquema es muy bajo. Incluso una rata en una caja de Skinner programada para un horario de intervalo fijo aprende que presionar la palanca más allá del mínimo requerido es un desperdicio de energía. Irónicamente, el “trabajo de 9 a 5” es la forma preferida de recompensar a los empleados en las empresas.

Aunque el diseño de la programación puede ser una poderosa técnica para continuar o amplificar un comportamiento específico, es posible que no reconozcamos un aspecto importante del refuerzo: las preferencias individuales por recompensas específicas.

La experiencia sugiere que la supervivencia está impulsada por nuestra necesidad de comida y agua. Sin embargo, la mayoría de nosotros no vivimos en condiciones de extrema escasez y, por tanto, los tipos de refuerzo que nos resultan atractivos serán diferentes.

La cultura desempeña un papel importante en la determinación de los refuerzos eficaces. Y lo que se refuerza da forma a la cultura. Ofrecer entradas para un partido de cricket podría ser una poderosa recompensa para alguien en un país donde el cricket es algo importante, pero no tendría sentido para la mayoría de los estadounidenses. Del mismo modo, una oficina con aire acondicionado puede ser un poderoso incentivo para los empleados de Indonesia, pero no importará tanto a los empleados de una zona más templada.

¿Qué hay del castigo?

Hasta ahora hemos hablado del refuerzo positivo: la zanahoria, por así decirlo. Sin embargo, también existe el palo.

No cabe duda de que nuestra sociedad se basa en gran medida en la amenaza y el castigo como forma de mantenernos a raya. Aun así, seguimos llegando tarde, olvidando los cumpleaños y recibiendo multas de aparcamiento, aunque sepamos que existe la posibilidad de ser castigados.

Hay varias razones por las que el castigo puede no ser la mejor manera de alterar el comportamiento de alguien.

En primer lugar, Skinner observó que el poder del castigo para suprimir la conducta suele desaparecer cuando se elimina la amenaza del castigo. De hecho, todos nos abstenemos de utilizar las redes sociales durante las horas de trabajo, cuando sabemos que nuestro jefe está cerca, y del mismo modo respetamos el límite de velocidad cuando sabemos que nos vigila una patrulla de policía.

En segundo lugar, el castigo suele desencadenar una respuesta de lucha o huida y nos vuelve agresivos. Cuando se nos castiga, tratamos de huir de más castigos, y cuando se bloquea la huida, podemos volvernos agresivos. Este vínculo castigo-agresión puede explicar también por qué los padres maltratadores proceden de familias maltratadoras.

En tercer lugar, el castigo inhibe la capacidad de aprender nuevas y mejores respuestas. El castigo conduce a una serie de respuestas -como la huida, la agresión y la indefensión aprendida-, ninguna de las cuales ayuda al proceso de aprendizaje del sujeto. El castigo tampoco muestra a los sujetos lo que deben hacer exactamente, sino que se centra en lo que no deben hacer. Por eso los entornos que perdonan el fracaso son tan importantes en el proceso de aprendizaje.

Por último, el castigo se aplica a menudo de forma desigual. Nos regimos por prejuicios a la hora de evaluar quién merece ser castigado. Regañamos a los niños más a menudo que a las niñas, castigamos físicamente a los escolares más a menudo que a los adultos, y controlamos a los miembros de las minorías raciales más a menudo (y más duramente) que a los blancos.

¿Qué debo hacer en su lugar?

Hay tres alternativas que puedes probar la próxima vez que sientas la tentación de castigar a alguien.

La primera ya la hemos mencionado: extinción. Una respuesta suele disminuir o desaparecer si deja de producir las recompensas que antes producía. Sin embargo, es importante que se retengan todos los refuerzos posibles. Esto es mucho más difícil de hacer en la vida real que en el laboratorio.

Lo que lo hace especialmente difícil es que, durante el proceso de extinción, los organismos tienden a buscar técnicas novedosas para obtener refuerzos. Esto significa que un niño quejumbroso redoblará sus esfuerzos o cambiará de táctica para recuperar la atención del padre antes de cesar el comportamiento. En este caso, una mejor estrategia de extinción es combinar métodos reteniendo la atención después de que se produzca el lloriqueo y recompensando con atención conductas más deseables antes de que se produzca el lloriqueo.

La segunda alternativa es reforzar positivamente las actividades preferidas. Por ejemplo, las personas que hacen ejercicio con regularidad (y lo disfrutan) pueden utilizar una carrera diaria como recompensa por realizar otras tareas. Del mismo modo, los niños pequeños aprenden a quedarse quietos si se les recompensa con un permiso ocasional para correr y hacer ruido. El principio fundamental de esta idea es que una actividad preferida, como correr, puede utilizarse para reforzar una actividad menos preferida. Esta idea también se denomina principio de Premack.

Por último, promover y moldear son dos acciones que podemos utilizar conjuntamente para cambiar el comportamiento de forma iterativa. Un estímulo es una señal o un estímulo que fomenta la conducta deseada. Cuando se inicia el moldeado, se refuerza cualquier aproximación a la respuesta objetivo. Una vez que veas que la aproximación se produce con regularidad, puedes hacer que el criterio para el objetivo sea más estricto (el comportamiento real tiene que coincidir más con el comportamiento deseado), y seguir reduciendo los criterios hasta que se realice el comportamiento objetivo específico. Esta táctica suele ser el método preferido para desarrollar un hábito gradualmente y para entrenar a los animales a realizar un comportamiento específico.

Espero que ahora estés mejor preparado para reconocer que los incentivos son fuerzas poderosas que dan forma a nuestro comportamiento y al de los demás. La próxima vez que desees que alguien cambie su forma de comportarse, piensa en cambiar sus incentivos.

Como cualquier padre, experimento con mis hijos todo el tiempo. Una de las cosas más eficaces que hago cuando uno de ellos se ha portado mal es reconocer los sentimientos de mi hijo y preguntarle qué pretendía conseguir.

Cuando un niño pega al otro, por ejemplo, le pregunto qué intentaba conseguir. Normalmente, la respuesta es: “Me ha pegado. (Así que le devolví el golpe)”. Sé que esto afecta a una respuesta humana automática que muchos adultos no pueden controlar. Lo que me hace preguntarme cómo puedo cambiar el comportamiento de mis hijos para que sea más eficaz.

“Entonces, ¿estabas enfadada y querías que lo supiera?”

“Sí”.

“Las personas no son para pegar. Si quieres, te ayudaré a ir a decirle por qué estás enfadado”.

La tensión se disipa. Y empiezo (con suerte) a hacer que mis hijos piensen en formas efectivas e inefectivas de conseguir sus objetivos.

[quote]El castigo funciona mejor para evitar acciones, mientras que los incentivos funcionan mejor para fomentarlas[/quote].

Terminemos con un excelente consejo que se ha dado sobre los incentivos. Aquí está Charlie Munger, hablando en la ceremonia de graduación de la Universidad del Sur de California:

No quieres estar en un sistema de incentivos perverso que te haga comportarte cada vez más tontamente o peor: los incentivos son un control demasiado poderoso sobre la cognición o el comportamiento humanos. Si estás en uno [de estos sistemas], no tengo una solución para ti. Tendrás que descubrirlo por ti mismo, pero es un problema importante.

The Latest

Algunas leyes para cuando seas hacerse rico

LO SUFICIENTEMENTE BUENO

Desenamorándome de Michael Lewis

Admitir lo que es obvio

El poder de los incentivos: Las fuerzas ocultas que moldean el comportamiento

La ciencia del refuerzo

Refuerzo programado

¿Qué hay del castigo?

¿Qué debo hacer en su lugar?

El poder de los incentivos: Las fuerzas ocultas que moldean el comportamiento

La ciencia del refuerzo

Refuerzo programado

¿Qué hay del castigo?

¿Qué debo hacer en su lugar?

Related Posts