Ya sabemos por qué ChatGPT empezó a hablar en Spanglish. El loro estocástico de OpenAI se hizo un lío con los números

  • La empresa ha explicado un problema que demuestra algo importante: estos chatbots no entienden lo que dicen

  • Un célebre estudio en 2021 ya alertó de posibles errores como este: una de las investigadoras fue despedida de Google por sus conclusiones

Chat33
6 comentarios Facebook Twitter Flipboard E-mail

ChatGPT no entiende ni una palabra de lo que te está diciendo. Ni una. Cuando genera texto, lo hace gracias a un complejo sistema de probabilidades: si elige esta palabra al lado de esta otra es porque el modelo le indica que eso tiene (muchas) probabilidades de tener sentido.

Por eso a estos chatbots se les conoce también como "loros estocásticos", un término acuñado en marzo de 2021, cuando ni siquiera habíamos asistido al nacimiento de ChatGPT. Los grandes modelos de lenguaje (LLM) son convincentes a la hora de generar texto, pero eso no significa que no puedan cometer errores.

Probabilidades y números

Eso es precisamente lo que pasó el pasado 20 de febrero con ChatGPT. Al chatbot de OpenAI le dio una pájara y varios usuarios comentaron cómo sus respuestas se habían convertido en un completo galimatías.

La empresa pronto reconoció que el problema existía y que se ponían a investigarlo, y horas después lo atajaban y monitorizaban la situación, aunque no daban detalles sobre las razones por las cuales se había producido.

Ahora ya sabemos qué pasó. La página de estado de OpenAI reveló hace unas horas que "una optimización de la experiencia de usuario" acabó provocando el problema. ¿Cómo?

Según indica ese comunicado, el conflicto estuvo precisamente en la forma en la que trabajan los LLM, que "generan respuestas mediante un muestreo aleatorio de palabras basado en parte en probabilidades. Su "lenguaje" consiste en números que se asignan a tokens":

"En este caso, el error estaba en el paso en el que el modelo elige estos números. Como si se perdiera en la traducción, el modelo eligió números ligeramente erróneos, lo que produjo secuencias de palabras sin sentido. Desde un punto de vista más técnico, los núcleos de inferencia producían resultados incorrectos cuando se utilizaban en determinadas configuraciones de GPU".

Tras identificar la causa del problema, en OpenAI aplicaron una serie de correcciones para evitar esas malas elecciones de números, lo que permitió que esas respuestas sin sentido dejaran de producirse. La modificación del modelo demostró comportarse de forma adecuada, lo que ha permitido confirmar que el problema se ha resuelto.

El paper de la discordia

Este suceso pone de manifiesto esos problemas ya conocidos de los modelos de IA generativa: cometen errores, inventan cosas y "alucinan". Es algo que ya advertían los investigadores que hablaron de los peligros de los "loros estocásticos" en ese estudio de 2021.

Gebru Timnit Gebru. Fuente: TechCrunch (Flickr).

Una de las principales responsables de ese estudio, titulado "Sobre los peligros de los loros estocásticos: ¿Pueden los modelos lingüísticos ser demasiado grandes?" es Timnit Gebru. Esta ingeniera experta en el campo de la inteligencia artificial trabajó en Apple, Stanford y Microsoft antes de  trabajar en la división de ética de la inteligencia artificial en Google en 2018.

En diciembre de 2020, antes de que se publicara el citado estudio, sus jefes en Google le pidieron que no lo publicara o que eliminara los nombres de los empleados de Google que habían participado en él (cinco de los seis). Tras negarse, fue inmediatamente despedida de la compañía, pero el estudio acabó publicándose.

Precisamente en ese estudio Gebru y sus compañeros planteaban las limitaciones de esa base probabilística del modelo. En primer lugar, las predicciones repiten datos con ruido añadido. En segundo, el algoritmo no entiende el problema, y no puede saber si ha repetido datos incorrectos, fuera de contexto o socialmente inapropiados.

Eso, advertían estos investigadores, podía hacer que los resultados generados por estos modelos de IA fueran "peligrosamente erróneos". Lo que ha pasado con ChatGPT no podría considerarse peligroso, pero desde luego las advertencias del estudio se hacen cada vez más obvias.

Sobre todo, cuando se intenta aplicar ChatGPT a áreas en las que esos errores sí podrían tener un impacto mucho más inquietante. Ya vimos en el pasado casos singulares como el del sistema de IA que analizaba datos para decidir si una persona debía ir o o a prisión y se equivocaba.

Lo mismo podría decirse de las empresas que están usando la IA en sus procesos de recursos humanos para contratar y despedir a empleados, algo que también podría acabar en desastre si esos modelos no están bien diseñados o sus conclusiones no se analizan de forma profunda.

Imagen | Sanket Mishra

Inicio