La ciencia lleva 100 años utilizando un parámetro clave porque un señor no quiso pagar por unas tablas

La ciencia lleva 100 años utilizando un parámetro clave porque un señor no quiso pagar por unas tablas
3 comentarios

Cuando hablamos de ciencia seguro que la palabra “tradición” no es de las primeras que nos viene a la mente. Y sin embargo los investigadores no están exentos de ciertos usos y costumbres sin mucho más trasfondo que el histórico. Este es el caso de un clásico, el nivel de significatividad del 95%.

Historia de un desencuentro. El 95 no es un número mágico que convierte una medida en correcta o no. Entonces, ¿por qué investigadores de todo el mundo las utilizan como si fueran la frontera de la verdad? La respuesta parece ser que por costumbre. Una costumbre con cien años de antigüedad, su origen: una disputa por derechos de autor.

Como cuentan Brent Goldfarb y Andrew King en un artículo de 2015, hay que remontarse a los años 20 del siglo pasado. Los protagonistas de la historia son dos conocidos de quienes hayan estudiado estadística: Karl Pearson y Ronald Fisher. El primero había creado unas tablas de referencia para el cálculo de los p-valores, por las que recibía derechos de autor por parte de quienes quisieran incluirlas en sus libros de estadística. Unos derechos de autor que Fisher simplemente no tenía ganas de pagar.

Decidió entonces crear un método para calcular la significatividad basándose solo en dos valores discretos, los p-valores 0,05 y 0,01. Como escriben Goldfarb y King en su artículo “una interpretación justa de esta historia es que utilizamos los p-valores al menos parcialmente porque un estadístico de [la década de 1920] tenía miedo de que compartir su trabajo minaría sus ingresos”.

¿Qué es exactamente el p-valor? Los p-valores estiman la posibilidad de que cometamos un tipo específico de error en el cálculo de un parámetro estadístico, como por ejemplo, una media. Si la medida real, la poblacional, está muy lejos de la estimación, que realizamos en base a una muestra limitada de toda la población, ésta última no sirve de mucho.

Podemos poner un ejemplo con la evaluación de un tratamiento médico. Queremos saber si los pacientes que lo han recibido se encuentran en promedio mejor que los que no lo han recibido. En este caso nos interesa saber que el promedio de la mejora de los pacientes es mayor que cero. Si nuestra estimación es positiva pero la medida real es cero el estudio no nos sirve de nada (si acaso para ofrecer un medicamento inútil a los pacientes).

El cálculo. El este caso, lo que hacen quienes conducen el experimento es calcular la probabilidad de que el valor real de la media calculada sea mayor que cero. A esta probabilidad la llamaríamos el p-valor, y es una medida clave en ciencia. A pesar de ello no siempre se utiliza.

El cálculo de este p-valor se basa en distribuciones estadísticas. Cada medida estadística que se construye a partir de un modelo tiene una distribución de probabilidad asociada. Esta suele tener forma de campana, alta en el centro y que cae a los lados formando curvas. A partir de esta distribución podemos calcular la posibilidad de que la medida real se encuentre en un entorno concreto alrededor de nuestra estimación.

Una significatividad del 95%. A veces complementariamente y a veces en lugar de este p-valor, se utilizan niveles discretos de significatividad, habitualmente el 95% aunque también a veces el 99% y el 99,9%. Esto se traduce en una medida “significativa” cuando los p-valores son menores que 0,05; 0,01; y 0,001 respectivamente. Se suele hablar también de poder “rechazar, o no, la hipótesis” de que la medida esté equivocada hasta el punto de ser inútil.

Por qué esto importa un siglo después. El propio Fisher reconocería después, continúan explicando Goldfarb y King, que el uso de los p-valores era mejor que su “método binario”. Hasta el punto de admitir, citan, “ningún trabajador científico ha fijado un nivel de significatividad al cual, de año en año y en toda circunstancia, rechace hipótesis [nulas]; preferirá dejar la decisión en cada caso particular en función de sus pruebas e ideas”. El contexto es importante a la hora de interpretar las estadísticas.

La idea “binaria” de significatividad puede ofrecer una falsa confianza en unos resultados basados en la incertidumbre. La certeza absoluta no existe, hasta el punto de que incluso la probabilidad de error es en sí misma una estimación.

El artículo de Goldfarb y King no es un tratado sobre la historia de la estadística, sino una crítica sobre las publicaciones en el ámbito del marketing. Estiman que entre un 24 y un 40 % de los estudios que analizan no generarían los mismos resultados si se repitieran. La posibilidad de repetir un experimento es vital en la ciencia. Con ello pueden confirmarse o rechazarse con mayor certeza las teorías, descartando posibles estudios erróneos, al fin y al cabo un p-valor de 0,05 implica en principio un 5% de posibilidades de error.

Cosa de sesgos. Los sesgos a los que se enfrenta la ciencia son muchos y variados. La posibilidad de que existan errores en un número alto de trabajos científicos es conocida desde hace más de una década y ha sido objeto de debate. La necesidad de publicar, el publish or perish, y las reticencias de las revistas a publicar estudios confirmatorios son también causantes de otro sesgo, el sesgo de publicación (publication bias), también muy temido por quienes analizan la literatura científica.

El método científico es hoy por hoy la mejor herramienta de la que disponemos, pero como toda herramienta no es perfecta, y necesita algún apaño ocasional. Librarse del lastre de algunas tradiciones puede ser un buen punto de partida.

Temas
Inicio