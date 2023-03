Si GPT-4 fuera un estudiante, sería uno de los más brillantes. La propia OpenAI evaluó su capacidad con una serie de exámenes que fueron creados para seres humanos y en los sacó notas espectaculares. Conseguiría estar de hecho entre el 10% de los que obtienen mejores calificaciones, pero hay quien dice que en realidad eso no significa demasiado.

Qué ha pasado. OpenAI sometió a GPT-4 a exámanes académicos de diversos tipos, como el Uniform Bar Exam, el test más popular en EEUU para convertirse en abogado, o el LSAT, la prueba que da la posibilidad de acceder a la Columbia Law School. También se sometió a la prueba GRE Quantitative, que mide la capacidad de razonar y de entender conceptos matemáticos. En casi todas ellas su puntuación fue excepcional, y eso parecía hacer a GPT-4 superior a la mayoría de estudiantes humanos. Un reciente estudio de dos investigadores revela que hay problemas con esa percepción.

I suspect GPT-4's performance is influenced by data contamination, at least on Codeforces.



Of the easiest problems on Codeforces, it solved 10/10 pre-2021 problems and 0/10 recent problems.



This strongly points to contamination.



1/4 https://t.co/wKtkyDRGGG pic.twitter.com/wm6yP6AmGx