Sesgo por insensibilidad al tamaño de la muestra

Hoy vamos a explorar un concepto que causa muchos errores de juicio humanos. Se llama el sesgo de la insensibilidad al tamaño de la muestra, o, si lo prefieres, la ley de los números pequeños.

La insensibilidad al tamaño pequeño de la muestra causa muchos problemas.

• • •

Si midiera a una persona, que casualmente mide 1,80 m, y luego te dijera que todas las personas del mundo entero miden 1,80 m, te darías cuenta intuitivamente de que es un error. Dirías que no puedes medir a una sola persona y luego sacar esa conclusión. Para ello necesitarías una muestra mucho mayor.

Y, por supuesto, tendrías razón.

Aunque es sencillo, este ejemplo es un elemento clave para comprender cómo la insensibilidad al tamaño de la muestra puede llevarnos por el mal camino.

Como escribe Stuard Suterhland en Irracionalidad:

Antes de sacar conclusiones a partir de información sobre un número limitado de sucesos (una muestra) seleccionados de un número mucho mayor de sucesos (la población) es importante entender algo sobre la estadística de las muestras.

En Pensamiento rápido y lento, Daniel Kahneman escribe “Un suceso aleatorio, por definición, no se presta a ser explicado, pero las colecciones de sucesos aleatorios se comportan de forma muy regular. ” Kahnemen continúa diciendo que “es más probable encontrar resultados extremos (tanto altos como bajos) en muestras pequeñas que en muestras grandes. Esta explicación no es causal”.

Todos sabemos intuitivamente que “los resultados de las muestras más grandes merecen más confianza que los de las muestras más pequeñas, e incluso las personas sin conocimientos estadísticos han oído hablar de esta ley de los grandes números”.

El principio de regresión a la media dice que, a medida que el tamaño de la muestra aumenta, los resultados deberían converger a una frecuencia estable. Así, si lanzamos monedas y medimos la proporción de veces que sale cara, esperaríamos que se acercara al 50% después de un tamaño de muestra grande de, digamos, 100, pero no necesariamente 2 ó 4.

En nuestra mente, a menudo no tenemos en cuenta la precisión y la incertidumbre con un tamaño de muestra determinado.

Aunque todos lo entendemos intuitivamente, nos cuesta darnos cuenta en el momento del procesamiento y la toma de decisiones de que las muestras más grandes son mejores representaciones que las muestras más pequeñas.

Entendemos bastante bien la diferencia entre un tamaño de muestra de 6 y 6.000.000, pero no entendemos, intuitivamente, la diferencia entre 200 y 3.000.

• • •

Este sesgo se presenta de muchas formas.

En una encuesta telefónica a 300 personas mayores, el 60% apoya al presidente.

Si tuvieras que resumir el mensaje de esta frase en exactamente tres palabras, ¿cuáles serían? Casi seguro que elegirías “los ancianos apoyan al presidente”. Estas palabras proporcionan la esencia de la historia. Los detalles omitidos de la encuesta, que se hizo por teléfono con una muestra de 300, no tienen interés en sí mismos; proporcionan información de fondo que atrae poca atención”. Por supuesto, si la muestra fuera extrema, digamos 6 personas, lo pondrías en duda. Sin embargo, a menos que estés totalmente equipado matemáticamente, juzgarás intuitivamente el tamaño de la muestra y no reaccionarás de forma diferente ante una muestra de, digamos, 150 y 3000. Eso, en pocas palabras, es exactamente el significado de la afirmación de que “la gente no es adecuadamente sensible al tamaño de la muestra”.

Parte del problema es que nos centramos en la historia por encima de la fiabilidad, o la solidez, de los resultados.

El pensamiento del sistema uno, es decir, nuestra intuición, “no es propenso a la duda”. Suprime la ambigüedad y construye espontáneamente historias lo más coherentes posible. A menos que el mensaje se niegue inmediatamente, las asociaciones que evoca se extenderán como si el mensaje fuera cierto”.

Considerar el tamaño de la muestra, a menos que sea extremo, no forma parte de nuestra intuición.

Kahneman escribe

La fe exagerada en las muestras pequeñas es sólo un ejemplo de una ilusión más general: prestamos más atención al contenido de los mensajes que a la información sobre su fiabilidad, y como resultado acabamos teniendo una visión del mundo que nos rodea más simple y coherente de lo que los datos justifican. Sacar conclusiones precipitadas es un deporte más seguro en el mundo de nuestra imaginación que en la realidad.

• • •

En ingeniería, por ejemplo, podemos encontrar esto en la evaluación de los precedentes.

Steven Vick, escribiendo en Degrees of Belief: Probabilidad subjetiva y juicio de ingeniería, escribe:

Si algo ha funcionado antes, la presunción es que volverá a funcionar sin falta. Es decir, la probabilidad de éxito futuro condicionada al éxito pasado se toma como 1,0. En consecuencia, se supone que una estructura que ha sobrevivido a un terremoto es capaz de sobrevivir con la misma magnitud y distancia, con la presunción subyacente de que los factores causales operativos deben ser los mismos. Pero los movimientos sísmicos del suelo son bastante variables en su contenido de frecuencia, características de atenuación y muchos otros factores, de modo que un precedente de un solo terremoto representa una muestra muy pequeña.

El pensamiento bayesiano nos dice que un único éxito, en ausencia de otra información, aumenta la probabilidad de supervivencia en el futuro.

En cierto modo, esto está relacionado con la robustez. Cuanto más hayas tenido que manejar y sigas sobreviviendo, más robusto serás.

Veamos otros ejemplos.

• • •

Hospital

Daniel Kahneman y Amos Tversky demostraron nuestra insensibilidad al tamaño de la muestra con la siguiente pregunta:

En una determinada ciudad hay dos hospitales. En el hospital más grande nacen cada día unos 45 bebés, y en el hospital más pequeño nacen cada día unos 15 bebés. Como sabes, aproximadamente el 50% de los bebés son niños. Sin embargo, el porcentaje exacto varía de un día a otro. A veces puede ser superior al 50%, a veces inferior. Durante un período de 1 año, cada hospital registró los días en los que más del 60% de los bebés nacidos fueron varones. ¿Qué hospital crees que registró más días de este tipo?

1. El hospital más grande
2. El hospital más pequeño
3. Más o menos lo mismo (es decir, con un 5% de diferencia entre ellos)

La mayoría de la gente elige incorrectamente la 3. Sin embargo, la respuesta correcta es la 2.

En El juicio en la toma de decisiones directivas, Max Bazerman explica:

La mayoría de las personas eligen el 3, esperando que los dos hospitales registren un número similar de días en los que el 60 por ciento o más de los bebés embarcados sean niños. La gente parece tener una idea básica de lo inusual que es que el 60 por ciento de un suceso aleatorio ocurra en una dirección específica. Sin embargo, la estadística nos dice que es mucho más probable observar un 60 por ciento de bebés varones en una muestra más pequeña que en una muestra más grande”. Este efecto es fácil de entender. Piensa en qué es más probable: obtener más del 60 por ciento de caras en tres lanzamientos de la moneda u obtener más del 60 por ciento de caras en 3.000 lanzamientos.

• • •

Otro ejemplo interesante proviene del Poker.

En periodos cortos de tiempo, la suerte es más importante que la habilidad. Cuanto más contribuya la suerte al resultado, mayor será la muestra que necesitarás para distinguir entre la habilidad de alguien y el puro azar.

David Einhorn lo explica.

La gente me pregunta: “¿El póquer es suerte?” y “¿la inversión es suerte?”.

La respuesta es que no, en absoluto. Pero el tamaño de las muestras es importante. En un día cualquiera, un buen inversor o un buen jugador de póquer puede perder dinero. Cualquier inversión en acciones puede resultar perdedora, por muy grande que parezca la ventaja. Lo mismo ocurre con una mano de póquer. Un torneo de póquer no es muy diferente de un concurso de lanzamiento de monedas y tampoco lo son seis meses de resultados de inversión.

Sobre esa base, la suerte desempeña un papel. Pero con el tiempo -en miles de manos contra una variedad de jugadores y en cientos de inversiones en una variedad de entornos de mercado- la habilidad gana.

A medida que aumenta el número de manos jugadas, la habilidad desempeña un papel cada vez mayor y la suerte desempeña un papel menor.

• • •

Pero esto va más allá de los hospitales y el póquer. El béisbol es otro buen ejemplo. Durante una larga temporada, lo más probable es que los mejores equipos lleguen a la cima. A corto plazo, puede pasar cualquier cosa. Si te fijas en la clasificación a los 10 partidos de la temporada, lo más probable es que no sea representativa de la situación que se producirá tras la temporada completa de 162 partidos. A corto plazo, la suerte juega un papel demasiado importante.

En Moneyball, Michael Lewis escribe “En una serie de cinco partidos, el peor equipo del béisbol ganará al mejor aproximadamente el 15% de las veces”.

• • •

Si promocionas a la gente o trabajas con colegas, también querrás tener en cuenta este sesgo.

Si supones que el rendimiento en el trabajo es una combinación de habilidad y suerte, puedes ver fácilmente que el tamaño de la muestra es relevante para la fiabilidad del rendimiento.

El muestreo del rendimiento funciona como cualquier otra cosa, cuanto mayor sea el tamaño de la muestra, mayor será la reducción de la incertidumbre y más probable será que tomes buenas decisiones.

Esto ha sido estudiado por uno de mis pensadores favoritos, James March. Lo llama el efecto de registro falso.

Escribe:

Efecto de registro falso. Un grupo de directivos de idéntica (moderada) capacidad mostrará una considerable variación en sus registros de rendimiento a corto plazo. Algunos se encontrarán en un extremo de la distribución y se considerarán sobresalientes; otros estarán en el otro extremo y se considerarán ineficaces. Cuanto más tiempo permanezca un directivo en su puesto, menor será la diferencia probable entre el historial de rendimiento observado y la capacidad real. El tiempo en el puesto aumenta la muestra esperada de observaciones, reduce el error de muestreo esperado y, por tanto, reduce el cambio de que el directivo (o la habilidad moderada) sea promovido o salga.

Efecto Héroe. Dentro de un grupo de directivos con distintas capacidades, cuanto más rápido sea el ritmo de ascenso, menos probable será que se justifique. Los registros de rendimiento se producen por una combinación de capacidad subyacente y variación de muestreo. Los directivos que tienen buenos registros tienen más probabilidades de tener una gran capacidad que los que tienen malos registros, pero la fiabilidad de la diferenciación es pequeña cuando los registros son cortos.

(Me doy cuenta de que los ascensos son mucho más complicados de lo que estoy diciendo. Algunos puestos, por ejemplo, son más difíciles que otros. La cosa se complica rápidamente y eso es parte del problema. A menudo, cuando las cosas se complican, apagamos el cerebro e inventamos la explicación más sencilla que podemos. Simple, pero errónea. Sólo señalo que el tamaño de la muestra es una de las aportaciones a la decisión. No estoy defendiendo en absoluto un enfoque de “la experiencia es lo mejor”, ya que eso conlleva una serie de otros problemas).

• • •

Este sesgo también se utiliza en tu contra en la publicidad.

La próxima vez que veas un anuncio que diga “4 de cada 5 médicos recomiendan ….” Estos resultados no tienen sentido si no se conoce el tamaño de la muestra. Lo más probable es que el tamaño de la muestra sea 5.

• • •

Los tamaños de muestra grandes no son una panacea. Las cosas cambian. Los sistemas evolucionan y la fe en esos resultados también puede ser infundada.

La clave, en todo momento, es pensar.

Este sesgo lleva a toda una serie de cosas, como:

– subestimar el riesgo
– sobreestimar el riesgo
– confianza indebida en las tendencias/patrones
– confianza indebida en la ausencia de efectos secundarios/problemas

El sesgo por insensibilidad al tamaño de la muestra forma parte del entramado de Farnam Street de modelos mentales.

The Latest

Algunas leyes para cuando seas hacerse rico

LO SUFICIENTEMENTE BUENO

Desenamorándome de Michael Lewis

Admitir lo que es obvio

Sesgo por insensibilidad al tamaño de la muestra

Sesgo por insensibilidad al tamaño de la muestra

Related Posts