Ponte en situación. Imagínate que estás dando un paseo por el parque del barrio cuando ves que en uno de los bancos, junto a la fuente, se sienta una anciana con una bolsa de papel bajo el brazo. No quieres ser cotilla, pero empieza a rebuscar en su interior con tanta insistencia, tan impaciente te parece, que sigues mirando. Al cabo de unos segundos saca algo de la bolsa. Difícil distinguir qué es desde donde estás. Lo que sí notas es que le ha cambiado el gesto: tuerce la boca, frunce el ceño y murmura algo que, pese a la distancia, se ve que no son precisamente loas.

Lo más probable es que pienses que se haya llevado un chasco, que lo que ha encontrado en la bolsa no es lo que esperaba y que, a la vista de cómo mueve la cabeza, esté cabreada. Puede incluso que vuelva a la tienda donde ha comprado lo que sea que hay en la bolsa para pedir que se lo cambien. Eso lo pensarías tú. La pregunta que se hizo hace no mucho Michal Konsinski, psicólogo computacional y profesor de la Universidad de Stanford, es: "¿Lo haría ChatGPT, el popular chatbot de OpenAI que lleva meses maravillándonos por sus capacidades y potencial?"

Su respuesta es fascinante. En cierto modo ChatGPT superó las pruebas que Konsinski le planteaba para comprobar sus capacidades igual que se esperaría de un niño de nueve años. No está nada mal para un motor de IA que ha demostrado poder mantener charlas coherentes y fluidas e incluso que podría superar los exámenes de una carrera de Derecho, Medicina o incluso un programa MBA.

Para ser más precisos, lo que quería averiguar Konsinski es si el famoso chat de OpenAI podría superar la prueba de la Teoría de la Mente —ToM, por sus siglas en inglés—, que básicamente es la capacidad de inferir los pensamientos, deseos... de otras personas y aprovecharlo para interpretar y predecir una conducta.

Gracias a esa capacidad podemos tomar consciencia de las diferencias que hay entre nuestro punto de vista y el de otras personas. Quizás suene abstracto, pero —como explica el propio Kosinski— resulta "fundamental" para las interacciones con otras personas, la empatía, autoconciencia y moralidad. Se trata de habilidades que surgen y mejoran durante la niñez y hasta la edad adulta. La pregunta era... ¿Cómo respondería ChatGPT a las pruebas que usan los psicólogos para valorarla?

Para salir de dudas se le planteaban al motor de IA pruebas parecidas a la del ejemplo de arriba. Por ejemplo, valorar cómo respondería una persona que al abrir una caja se encontrara en su interior algo que no esperaba y entender el motivo. ¿El resultado? Para empezar, poco se parecieron los resultados que arrojaron las pruebas con los primeros modelos, previos a 2022, que el lanzado en noviembre del año pasado, cuando OpenAI presentó la última versión de su chatbot.

"En un escenario típico, al participante se le presenta un contenedor cuyo contenido es inconsistente con su etiqueta y un protagonista que no ha visto el interior del contenedor. Para resolver esta tarea correctamente, el participante debe predecir que el protagonista debería asumir erróneamente que el contenedor la etiqueta y su contenido están alineados", detalla el experto de Stanford.

2/4 While models published before '22 performed rather poorly, Nov '22 edition (ChatGPT) performs as well as 9 year old children. pic.twitter.com/KsjarKLVFp