Alguien usó Opus 4.8 para que analizara una resonancia magnética. Lo que siguió confirma que no nos podemos fiar de la IA

Un desarrollador llamado Antoine Finkelstein llevaba semanas con el hombro derecho dolorido. Tras visitar a un ortopedista se realizó una resonancia magnética en la zona afectada, y según el informe médico, tenía una rotura parcial de grado III en el tendón subescapular. Finkelstein entonces hizo algo más: le pasó la resonancia a Claude Opus 4.8 para ver qué le decía la IA sobre esa imagen, y el resultado fue llamativo porque según ese modelo de IA su hombro estaba "intacto".

La IA le da pistas. El desarrollador sospechó que la clínica estaba quizás intentando hacer caja a costa de su dolencia, así que solicitó los datos brutos DICOM de la resonancia magnética. Lo que le dieron fueron 266 MB que cruzó con modelos de IA disponibles actualmente. Primero, eso sí, hizo una consulta rápida con ChatGPT y en ella detectó potenciales negligencias importantes: la clínica le había aplicado terapia de ondas de choque, desaconsejada para tendinopatías sin calcificación. También le habían inyectado Traumeel, un producto homeopático registrado en Alemania "sin indicación terapéutica".

En Xataka

Quibim es la nueva empresa estrella del mundo de la IA aplicada al diagnóstico médico. Y es de Valencia

Veamos qué dice Claude Opus 4.8. Para tratar de llegar hasta el fondo del asunto, el usuario decidió convertir al modelo de Anthropic en un médico al que pedir una segunda opinión. Tras configurar el modelo en la plataforma Claude Code, le permitió que el sistema instalase los paquetes de código necesarios para procesar las imágenes médicas en bruto que le habían enviado. Tras una hora procesando dichas imágenes, el modelo de IA emitió un diagnóstico sorprendente: el tendón que los médicos humanos detectaban como roto en un 50% estaba completamente intacto.

No me fío. El resultado era tan contradictorio frente al diagnóstico humano que Finkelstein quiso ir un poco más allá y montar un sistema de arbitraje ciego. Le mandó a Claude desplegar diversos subagentes independientes combinando imágenes de IA aisladas entre sí para evitar sesgos de confirmación. El veredicto de todos esos subagentes fue unánime: no había ninguna rotura parcial ni total, y todo hacía pensar que los especialistas humanos habían exagerado el diagnóstico.

Pero cantidad no es calidad. Este artículo dio lugar a un interesante debate en Hacker News en el que se arrojaron algunas reflexiones importantes. Es importante recordar por ejemplo que aunque la IA elimina el coste de las consultas, tener más información no equivale a resolver el problema. Como decía un usuario, la situación le recordó un problema que tuvo con su coche. Pidió solución a tres talleres distintos, y cada uno le dijo una cosa, e incluso uno le recomendó una reparación que él sabía que era inútil. "La solución a una información incierta no es más información, que es ciertamente lo que la IA puede proporcionar, sino mejor información, y en estos momentos la IA no puede proporcionar eso".

La IA es demasiado amable. Hay aquí otro problema: los grandes modelos de lenguaje están pensados para ser amables y "agradables". Son en cierto sentido cámaras de eco que quieren mantenernos contentos, así que no están pensados para contradecirnos de forma dura, lo que facilita el sesgo de confirmación. Si un usuario introduce sus sospechas en el prompt al preguntarle al chatbot, la IA tiende a darle la razón: a menudo vemos como empieza contestando con un "Tienes toda la razón...". El problema con las respuestas a temas médicos es que pueden ser muy distintas en sesiones independientes, pero como el tono siempre es convincente y seguro, pueden dar lugar a mayor confusión de la inicial.

El experto opina. En esa conversación participó un radiólogo profesional que aportó una visión experta. Según su criterio, los modelos de IA actuales siguen siendo mediocres interpretando imágenes médicas debido a la falta de bases de datos públicas y masivas de entrenamiento. Esos datos están protegidos por las leyes de privacidad médicas, y de momento ese problema tiene difícil solución, pero ese usuario explicaba que los últimos modelos ya se acercan en precisión al de un médico residente de primer o segundo año. La teórica amenaza a la profesión de radiólogo por parte de la IA es algo de lo que llevamos literalmente años hablando: de momento no parece que algo así esté cerca de ocurrir.

En Xataka

Predecir un cáncer de mama cinco años antes de que aparezca, posible gracias a la inteligencia artificial

Quién es responsable. Hay otro gran problema con la IA: no hay ningún responsable detrás si algo va mal tras aplicar alguna recomendación. Es cierto que los médicos humanos pueden cometer errores y pueden tener sesgos o incluso incentivos comerciales (vender tratamientos). Sin embargo, la diferencia jurídica es fundamental: el sistema médico cuenta con una serie de licencias, regulaciones y gestión de responsabilidades que penaliza las negligencias. La IA te obliga a que tú mismo te gestiones ante la incertidumbre.

El problema es simple: fiarse o no de la IA. En temas tan delicados como este se comprueba que la IA está aún lejos de ser un sustituto real de los expertos humanos. Puede que la medicina actual esté "mercantilizada", pero la IA, por muy barata o atractiva que pueda parecer, no cuenta aún con la precisión que se necesitaría para ciertos ámbitos. Como concluía el propio Finkelstein "no puedo saber si me puedo fiar de la IA, así que estoy en una especie de limbo en el que o pruebo suerte con otro médico, o espero y veo si mi hombro mejora con la rehabilitación que estoy haciendo".

Imagen | Vitaly Gariev

En Xataka | Un equipo en Málaga acaba de desarrollar una nueva IA médica. Su trabajo: ayudar a interpretar resonancias, tomografías e imágenes médicas