La falacia Andalucía y otras formas de equivocarse con la información estadística

No suele ser raro oír por ahí que las estadísticas mienten o manipulan. No deja de ser curioso: demasiados matemáticos se han dedicado al campo de la estadística para crear una base formal y correcta como para que ahora digamos que las estadísticas mienten.

Lo que ocurre en realidad es distinto. Si ves a alguien intentando clavar un clavo con el mango de un martillo, o a otro arreglando la batería de su móvil a martillazo puro, ¿diríais que el martillo no funciona? Pues con la estadística pasa lo mismo: mucha gente no sabe usarla.

Ahí me falta contexto, o por qué los andaluces son siempre "los que más"

Uno de los problemas más frecuentes es no tener en cuenta el contexto o usar números incorrectos para hacer comparaciones. Por ejemplo, ¿sabíais que en Andalucía es donde más perros se abandonan? ¿O que La Rioja es la comunidad autónoma con menor cantidad de deuda? Esos datos no son mentira, desde luego, pero transmiten una imagen equivocada. Y es que si tenemos en cuenta Andalucía es la comunidad autónoma con más población y La Rioja la que tiene menos población, igual esos datos no son tan sorprendentes.

En Xataka

Por qué la estadística es la gran asignatura del siglo XXI

Es un ejemplo que muchas veces se repite: muestro una cifra que parece alarmente pero que con el contexto apropiado no suena tan rara. Muchas veces hay que relativizar los datos para entenderlos. En el caso de los abandonos, un dato mucho más útil sería ver los abandonos por cada mil habitantes, que ya nos ayudará mejor a ver qué pasa exactamente. Podéis ver en la gráfica qué es lo que ocurre cuando pasamos de un dato a otro y como cambia la impresión que nos llevamos.

Así cambia la imagen cuando relativizamos los datos. Fuentes: INE y Fundación Affinity.

Cuando se dan medidas insuficientes

De momento sólo hemos hablado de datos. Ya si entramos en estadística de verdad, nos encontramos con un fallo muy común pero que se pasa mucho por alto: dar sólo medidas de centralidad. Para esto, me viene muy bien el famoso "chiste" de "Si yo tengo 100 euros y tú 0, la estadística dice que cada uno tenemos 50". Precisamente por esto surgieron las medidas de dispersión: a veces no sólo nos interesa saber cuál es la media sino también cómo se distribuyen los datos.

La media no es lo único: no es lo mismo un salario medio de 2.000 euros con un 90% de personas cobrando 2.000 que con un 90% cobrando 1.000

Un ejemplo muy claro, por seguir con la economía, es el del salario medio. Ved, por ejemplo, este artículo sobre el salario medio en España en 2013. Todo muy bonito, pero, ¿cómo se distribuyen los salarios? Desde luego, no es lo mismo que el 90% de la gente cobre entre 1.600 y 2.000 euros a que haya un grupo del 45% con salario de 0-500 euros y otro grupo del mismo tamaño con salarios de 100.000-200.000 euros.

Cuando hablamos de "medias" (medidas de centralidad) nos dejamos fuera toda esa información (medidas de dispersión) que nos dice cómo están distribuidos los datos. Y aunque estas herramientas (desviación estándar o diagramas de caja, por ejemplo) están muy extendidas, es difícil verlas en un periódico o en una rueda de prensa, y muchas veces esconden información que pueden cambiar la forma de ver las cosas (sin ir más lejos, echadle un ojo al ejemplo de antes del salario y pensad cómo puede cambiar la situación si cambia la distribución de salarios).

Los crímenes de los gráficos

Ups. Vía Malaprensa

Una parte de la estadística también se dedica a describir la realidad y los datos con gráficos. Y entre desconocimiento y mala intención, es extremadamente fácil que den una impresión incorrecta. El fallo más común suele ser no poner escalas (o ignorarlas), como en este ejemplo sobre difusión de prensa: no pongo ejes, muevo mi gráfica un poco más para arriba y, por arte de magia, salgo mejor parado que antes.

Plantar una línea y sacar conclusiones no es estadística: es sólo plantar líneas

Un caso especial cuando hablamos de describir la realidad con gráficos: la magnífica costumbre de mucha gente de plantar un gráfico de dispersión, plantar una recta "de mejor ajuste" y decir que los datos se distribuyen así, porque sí, porque lo dice Excel (o Numbers que es más hipster). El ejemplo perfecto lo tenéis en el gráfico de abajo: muestra los beneficios obtenidos según la tasa de admisión de la universidad en la que se estudia (menor tasa de admisión supone, según The Economist, mejor universidad). Y, por razones desconocidas, plantan una línea que parece querer demostrar que la universidad donde estudies no importa.

Y no son los únicos. Curiosamente, los analistas tecnológicos tienen a hacer mucho este tipo de cosas: coger datos, plantar una función que parece que se ajusta y de ahí sacar conclusiones, como en este artículo de Horace Dediu.

La cuestión es que esto no es más que un engaño: da la sensación de que los datos respaldan las tesis que se proponen cuando en realidad esas líneas de "mejor ajuste" no demuestran nada más que poco rigor matemático. Uno sólo puede fiarse de esas "líneas de ajuste" cuando se razona que los datos deberían ajustarse al modelo y, sobre todo, cuando después se dan las medidas de ajuste que dicen si de verdad el modelo cuadra o no. Y hablar de modelos me sirve para introduciros a la siguiente sección: predicciones.

En Xataka

Guía para interpretar los gráficos que se están publicando sobre el coronavirus

Cuidado con las predicciones

Lo cierto es que esto no se suele discutir mucho, así que voy a aprovechar la oportunidad. La estadística no predice nada. Nada. Se puede usar para preparar y verificar modelos que después se usan para predecir, pero la estadística no predice nada por sí misma.

El ejemplo más simple lo tenemos en el periodismo deportivo: "Según las estadísticas, el equipo local ha ganado más veces así que es más probable que gane este encuentro" o "siempre que el equipo ha ganado 2-1 en la ida se ha clasificado". Es una mezcla de no saber que las estadísticas no predicen nada y de ese falso vínculo entre correlación (dos cosas ocurren a la vez/relacionadas) y causalidad (una cosa causa la otra).

Más complicado es un tema que todos tendremos muy reciente: el de los sondeos electorales. ¿Por qué a veces fallan como escopetas de feria y a veces no? ¿Es culpa de la estadística?

Cuando se hacen predicciones pocas veces se dice la seguridad que se tiene en esa predicción: suele ser un signo de poco rigor

La respuesta es que no, no es culpa de la estadística, más que nada porque como decía antes la estadística no predice nada, y en concreto no predice cuántos votos va a sacar cada partido. Y el problema es que las encuestas no suelen mostrar esa incertidumbre: pocas veces se dan datos en términos de probabilidad (p.ej., "X partido conseguirá entre A y B escaños con un Z% de probabilidad", algo parecido a lo que suelen hacer en Politikon). Y es que, ¿de qué me sirve que me den una cifra concreta si la estimación es imprecisa? Por así decirlo, es poco honesto.

Otro error muy común a la hora de dar predicciones (o, más concretamente, de sacar conclusiones a partir de datos) es el de usar probabilidades de forma burda sin tener en cuenta la teoría estadística. El ejemplo que recuerdo aquí es el de "la probabilidad de cometer un error al meter un DNI y que salga el de la Infanta Cristina es casi nula". Y es que las probabilidades son muy curiosas y pocas veces te permiten dar afirmaciones rotundas.

Lo que representa el anterior enlace y lo que se suele hacer mal muchas veces es decir lo siguiente: suponemos que algo ocurre (la hipótesis; en este caso, que hubo un error fortuito al meter el DNI), y calculamos las probabilidades de que ocurra algo que sabemos que ha ocurrido (que salga el DNI de la infanta). Si las probabilidades son muy bajas, entonces la estadística dice que la hipótesis es falsa, ¿no?

Lo cierto es que las cosas son algo más complicadas: el resultado final no es una apreciación subjetiva del estilo "esto es poco probable", sino una probabilidad de que ocurra lo que hayamos observado si nuestra hipótesis es cierta, lo que se llama un p-valor. Pero, fijaos lo prudentes que son los matemáticos, que ese p-valor no mide la probabilidad de que la hipótesis sea cierta, porque eso no lo pueden saber. En resumidas cuentas: la estadística ni siquiera es capaz de decirte la probabilidad de que una hipótesis sea cierta.

En Xataka

Científico de datos: así es y así se forma uno en esta profesión cada vez más demandada

Otra manifestación de este mismo problema son los famosos "según un estudio". Esos estudios dicen que si haces algo (levantarte pronto, poner filtros en fotos o tener los dedos más largos) entonces es más probable que ocurra otra cosa: seas mejor persona, tengas más visitas, y la última os la dejo a la imaginación. Lo que pocas veces se menciona es cuánta seguridad se tiene en ese modelo. No sirve de nada encontrar una correlación si no es lo suficientemente significativa (por si tenéis curiosidad, en el caso de Yahoo sí sacaron esos valores y les salió que, efectivamente, el efecto de los filtros era muy significativo).

Entonces, ¿puedo fiarme de la estadística o no?

La estadística es fiable. El problema viene cuando se usa mal o cuando no te dan todos los datos

De la estadística sí. De los que te cuentan las estadísticas, no te fíes. Por suerte no hace falta saber muchas matemáticas para detectar los fallos cuando nos hablan de estadísticas. Mirar si los gráficos son lo que parecen ser o nos mienten, si nos faltan datos para hacernos la imagen global que pretenden que nos hagamos o buscar esas medidas de la seguridad de las afirmaciones que se hacen.

En definitiva, un poco de escepticismo sano para evitar que nos engañen con un mal uso de las estadísticas, siempre preguntando de dónde vienen los datos y dudando si lo que nos dicen choca mucho con lo que consideramos razonable (y si no choca también deberíamos dudar, que las cámaras de eco son malas).

Imagen | LendingMemo