El uso del machine learning está comprometiendo la fiabilidad de los resultados de las investigaciones científicas

Los científicos cada vez recurren más frecuentemente al machine learning con el fin de refinar y acelerar el análisis de datos de sus investigaciones. En muchos casos (como por ejemplo, en el campo de los compuestos farmacéuticos), estas técnicas están logrando acelerar su ritmo de descubrimientos.

Sin embargo, según la investigadora Genevera Allen (profesora de computación y estadística en la Universidad Rice, EE.UU), se está abusando de esta técnica, concediéndole un grado de fiabilidad de la que carece, y contribuyendo a generar una inminente "crisis de reproducibilidad" en el mundo científico.

Según denuncia Allen, los investigadores se estarían encontrando con problemas al intentar replicar un alto porcentaje de investigaciones, lo que arroja graves dudas acerca de la validez de los resultados iniciales.

En Xataka

17 expectativas de cómo el machine learning va a cambiar el mundo

Dentro del campo del machine learning, gran parte de la atención se centra en el desarrollo de modelos predictivos que faciliten la realización de predicciones sobre datos futuros basándose en su comprensión de los datos que ya ha estudiado.

Pero esto, denuncia Allen, supone que "muchas de estas técnicas están diseñadas para hacer siempre una predicción, [...] Nunca vuelven con 'No sé' o 'No descubrí nada' porque no están hechos para hacerlo". Así, el software termina identificando patrones que existen únicamente en ese conjunto de datos y no en el mundo real.

"La pregunta es: si tuviéramos otro dataset, ¿llegaríamos al mismo descubrimiento científico? Desafortunadamente, la respuesta a menudo es 'Probablemente no'".

Hay que señalar que esta "crisis de reproducibilidad de resultados" no es algo que haya descubierto ahora Allen, ella sólo está señalando al que considera uno de los principales culpables de esta crisis.

Realmente, es un problema ya reconocido por los investigadores desde hace varios años, y se refiere al número alarmante de resultados de investigación que no se repiten cuando otro grupo de científicos intenta el mismo experimento, indicando así que probablemente los resultados iniciales fueron erróneos.

En algunas ciencias, como la psicología, el índice de reproducibilidad apenas alcanza el 36%. Eso significa que el dos de cada tres investigaciones no sólo han sido una pérdida de tiempo y dinero: también que la ciencia se está desviando de su camino gracias a los falsos descubrimientos.

Por ello Allen sostiene que, en general, los descubrimientos realizados a través del machine learning no deberían ser considerados fiables mientras no hayan sido revisados.

Aunque reconoce que se está trabajando duro para que la próxima generación de técnicas de machine learning puedan evaluar la incertidumbre y la reproducibilidad de sus predicciones.

Vía | BBC.com & EurekAlert! Imagen principal | Nick Youngson CC BY-SA 3.0 (Alpha Stock Images)

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios