Las buenas notas de GPT-4 en los exámenes son menos impresionantes de lo que nos hemos contado

Si GPT-4 fuera un estudiante, sería uno de los más brillantes. La propia OpenAI evaluó su capacidad con una serie de exámenes que fueron creados para seres humanos y en los sacó notas espectaculares. Conseguiría estar de hecho entre el 10% de los que obtienen mejores calificaciones, pero hay quien dice que en realidad eso no significa demasiado.

Qué ha pasado. OpenAI sometió a GPT-4 a exámanes académicos de diversos tipos, como el Uniform Bar Exam, el test más popular en EEUU para convertirse en abogado, o el LSAT, la prueba que da la posibilidad de acceder a la Columbia Law School. También se sometió a la prueba GRE Quantitative, que mide la capacidad de razonar y de entender conceptos matemáticos. En casi todas ellas su puntuación fue excepcional, y eso parecía hacer a GPT-4 superior a la mayoría de estudiantes humanos. Un reciente estudio de dos investigadores revela que hay problemas con esa percepción.

I suspect GPT-4's performance is influenced by data contamination, at least on Codeforces.

Of the easiest problems on Codeforces, it solved 10/10 pre-2021 problems and 0/10 recent problems.

This strongly points to contamination.

1/4 https://t.co/wKtkyDRGGG pic.twitter.com/wm6yP6AmGx
— Horace He (@cHHillee) March 14, 2023

Contaminación de datos. Para empezar, los investigadores comprobaron que GPT-4 se sabía respuestas de memoria... cuando su memoria llegaba hasta ahí. Se sabe que los datos con los que se entrenó al modelo son de antes de septiembre de 2021. Cuando se le sometió a pruebas con preguntas de programación antes de esa fecha, respondió bien, pero no pudo responder ninguna con test basados en pruebas posteriores incluso cuando los problemas eran simples.

Se califica a ese problema como de "contaminación de datos", e incluso cambiar pequeños detalles en la forma de enunciar el problema puede confundir a ChatGPT —que era un alumno mediocre— y probablemente a GPT-4, apuntan mientras que no lo haría en el caso de un humano.

Estos exámenes son para humanos, no para máquinas. "La memorización es un espectro", explicaban los autores. Aunque un modelo como GPT-4 no tenga en su entrenamiento un problema exacto al que se le pide, "es inevitable que haya visto ejemplos bastante parecidos, simplemente por el tamaño del corpus de entrenamiento". Eso le permite al modelo "utilizar un nivel de razonamiento mucho menos profundo". Para estos expertos, estos modelos lingüísticos no tienen por tanto la capacidad de razonamiento que necesitan los humanos que se examinan y que luego aplican en el mundo real.

Las comparaciones son odiosas. Exámenes como el de acceso a la abogacía "ponen demasiado énfasis en el conocimiento de la mateira y poco en las habilidades del mundo real, que son mucho más difíciles de medir de forma estandarizada". O lo que es lo mismo: estos exámenes no solo no hacen hincapié en lo incorrecto, sino que precisamente "hacen demasiado hincapié precisamente en lo que hacen bien los modelos lingüísticos". Para los autores del estudio, la elección de estaos exámenes para evaluar GPT-4 es "desafortunada".

Calidad, no cantidad. Para los investigadores se necesitan estudios cualitativos, no cuantitativos. Aunque reconocen que GPT-4 "es realmente apasionante y puede resolver muchos problemas de los profesionales" como automatizar tareas rutinarias, este tipo de evaluaciones con exámenes como los utilizados por OpenAI pueden llevar a confusión.

En Xataka | Cómo educar y preparar para un futuro en el que los robots hagan la mayor parte del trabajo

En Xataka | Los estudiantes ya no copian, usan ChatGPT: las universidades comienzan a vigilar el uso de la inteligencia artificial