Se suponía que ChatGPT debía mejorar con el paso del tiempo. Está sucediendo exactamente lo contrario

"¿Es el número 17077 primo? Razónalo paso a paso". Esa sencilla pregunta debería ser bastante fácil de responder para un modelo de IA como ChatGPT, sobre todo con el tiempo que ha pasado desde su lanzamiento y su evolución. Uno pensaría que este chatbot es cada vez mejor y más preciso, pero no parece que eso esté pasando.

El estudio. El pasado martes unos investigadores de la Universidad de Stanford y de la Universidad de California en Berkeley publicaron un estudio que evaluaba cómo han evolucionado tanto GPT-3.5 (usado en el ChatGPT que se puede usar gratuitamente) como GPT-4 (usado en ChatGPT Plus y en Bing Chat). Las conclusiones son sorprendentes: en general ambos modelos han empeorado.

Las pruebas. Usando la API de estos modelos, los investigadores analizaron el rendimiento de estos modelos en dos versiones distintas, la de marzo de 2023 y la de junio de 2023. Realizaron pruebas consistentes en preguntas de resolución de problemas matemáticos, cuestiones sensibles, generación de código y razonamiento visual.

17077 es primo, pero no para ChatGPT. Una de las pruebas más llamativas fue la que indicábamos al comezar el artículo. Se le preguntó al chatbot si el número 17077 es primo (lo es) razonando la respuesta, y esa misma prueba se realizó con 500 ejemplos. Los cambios en la precisión fueron sorprendentes. GPT-4, que acierta el 97,6% de las preguntas con su versión de marzo, caía a una precisión del 2,4% en su versión de junio. A GPT-3.5 le pasaba justo lo contrario y pasaba del 7,4% de marzo al 86,8% de junio.

Más (o menos) parlanchines. También notaron que GPT-4 era menos "parlanchín": las respuestas eran más escuetas y el número de caracteres generado pasaba de 821,2 en marzo a 3,8 en junio. GPT-3.5, por contra, escribía respuestas un 40% más largas. En Xataka comprobamos que con el ejemplo expuesto, 17077, GPT-3.5 decía directamente que no era primo, mientras que GPT-4 no era capaz de asegurarlo y generaba un pequeño programa en Python que el usuario debía ejecutar para comprobarlo (pero no daba respuesta). El programa, al ser ejecutado, daba la respuesta correcta.

En Xataka

Copilot, ChatGPT y GPT-4 han cambiado el mundo de la programación para siempre. Esto opinan los programadores

Más protegidos contra 'jailbreaks'. Los investigadores también quisieron tratar de preguntar cuestiones delicadas para tratar de forzar a las distintas versiones de ChatGPT a que se comportaran de forma incorrecta. Los jailbreak y exploits son ya conocidos, pero al menos en GPT-4 el comportamiento fue más seguro (contestó solo el 5% de las preguntas sensibles en su versión de junio, por el 21% de marzo), aunque apenas explica por qué no contesta bien. GPT-3.5 contestó más en su última versión (del 2% al 8% de junio).

Código menos ejecutable. Este chatbot se usa mucho para generar código, pero su evolución en este apartado también es errática. Según los investigadores, para GPT-4 el código generado directamente ejecutable (y por tanto, que ofrece mejores respuestas) cayó del 52% al 10% en junio, y para GPT-3.5 el porcentaje también cayó del 22 al 2%. GPT-4 escribió respuestas más largas y con más texto que no era código.

¿Se está volviendo peor ChatGPT? El estudio llega en un momento curioso, sobre todo porque varios debates en foros como Hacker News revelan que para muchos usuarios la calidad de ChatGPT se ha degradado. Entre las teorías que se barajan está la de que OpenAI podría estar ofreciendo versiones "ligeras" para reducir los recursos necesarios —como tiempo de GPU— para computar toda esa información.

En OpenAI niegan la mayor. Peter Welinder, uno de sus directivos, indicaba que todo se debe probablemente a nuestra percepción: al usarlo mucho, empezamos a detectar problemas que antes no notábamos. Aún así los responsables de la empresa están investigando esas quejas.

Pruebas discutibles. Otros expertos argumentan que el estudio no es especialmente concluyente debido a las métricas utilizabas. Arvind Narayanan, profesor de informática en Princeton, explicaba que en las pruebas de código "no evalúan la corrección del código (extraño). Se limitan a comprobar si el código es directamente ejecutable. Así que el intento del nuevo modelo de ser más útil contó en su contra".

La opacidad lo complica todo. Lo cierto es que es difícil evaluar la progresión de estos modelos si tenemos en cuenta que OpenAI es especialmente opaca respecto a sus modelos. Como explican en Ars Technica, no hay transparencia sobre cómo son entrenados o los conjuntos de datos que se usan, y su propio funcionamiento interno es un misterio hasta para sus creadores. Aquí la opción sería adoptar un enfoque Open Source como el que por ejemplo Meta ha seguido con Llama y Llama 2, recién lanzado.

Imagen | Xataka con Bing Image Creator

En Xataka | Bard cae en el mismo error que ChatGPT aunque esté conectado a internet: se lo inventa absolutamente todo