La Arc Prize Foundation, una organización sin ánimo de lucro cofundada por el investigador en IA Francçois Chollet, ha anunciado el lanzamiento de ARC-AGI-2, un nuevo conjunto de pruebas que quieren servir para evaluar la capacidad de los modelos de IA de una forma singular. Y ahí está lo llamativo de estas pruebas.

Cómo de cerca estamos de la AGI. Mientras que otros benchmarks miden lo bien que las IAs resuelven problemas matemáticos o de programación, las pruebas diseñadas por Chollet y su equipo tratan de evaluar cómo de cerca estamos de una Inteligencia Artificial General (AGI). Y para ello hacen uso de pruebas que tratan de medir la capacidad de percepción de esos modelos, porque precisamente en ese ámbito es donde entra en juego una "vieja" paradoja.

Con ARC-AGI-2 los modelos que antes lograban resolver gran parte de los problemas ahora se atascan, y la métrica de la eficiencia (coste) es una de las claves.

La paradoja de Moravec. En 1988 el ingeniero austríaco Hans Moravec enunció la que se convertiría en la paradoja que lleva su nombre. La inteligencia artificial es capaz de hacer fácil lo difícil, pero también hace difícil lo que para los humanos es fácil. Eso se demuestra en la actualidad con una prueba muy sencilla: pon a un modelo de IA generativa como ChatGPT, Claude, DeepSeek o Gemini a contar erres y lo pasará fatal.

¿Qué mide ARC-AGI? La idea tras las pruebas ARC-AGI es la de medir la capacidad de los sistemas de IA para generalizar, aprender y adaptarse a problemas completamente nuevos y de los que no se conoce la respuesta. Hay mucho enfoque en la capacidad de razonamiento abstracto con puzzles visuales en los que la IA debe observar patrones en cuadrículas de colores y generar soluciones basadas en esos patrones. Además estas pruebas permiten saber si la IA puede resolver problemas para los que no ha sido entrenada, y también si puede generalizar extrayendo reglas subyacentes a partir de ejemplos simples para luego aplicarlas a nuevas situaciones.

No vale memorizarlo todo. En otros tipos de benchmarks la IA tiene la ventaja de que "se sabe todo el temario de memoria", y solo necesita aplicar lo que sabe dando respuestas que incluso puede llegar a tener memorizadas. El objetivo aquí es razonar y extrapolar como lo haría un humano, y de ahí ese foco en evaluar si estamos cerca de una AGI porque si lo estamos será capaz de razonar como nosotros. Eso sí: que una IA supere esta prueba no significa necesariamente que haya alcanzado la AGI.

Este es uno de los puzzles visuales que deben resolver los modelos de IA, pero para esos modelos el problema es complejísimo. Para los humanos, no tanto. Intentadlo ;)

ARC-AGI-1 sirvió durante un tiempo. Los modelos de IA de principios de 2024 se estrellaban con la primera versión de ARC-AGI, pero a finales de año aparecieron modelos de razonamiento y la cosa se puso interesante. El modelo o1-mini de OpenAI lograba superar el 7,80% de las pruebas, pero o3-low logró el 76% y o3-high, aun siendo carísimo, demostró llegar al 87,5%. Las máquinas estaban a punto de pasar de nivel, y hacía falta una revisión de las pruebas.

ARC-AGI-2 pone las cosas mucho más difíciles para la IA. Las nuevas pruebas consisten también en problemas similares a puzzles visuales que hacen que las IAs tengan que identificar patrones visuales. Los modelos de razonamiento como o1-pro y DeepSeek R1 apenas superan el 1,3% de ARC-AGI-2, y los modelos no-razonadores (GPT-4.5, Claude 3.7, Gemini 2.0 Flash) no pasan del 1%. Y o3-low, que en la primera versión de ARC-AGI lograba casi un 76% de las respuestas, apenas llega al 4% en ARC-AGI-2 y lograrlo cuesta 200 dólares por tarea. Lo curioso es que de media los seres humanos logran acertar el 60% de las preguntas, mucho más que cualquiera de los modelos actuales. Podéis "jugar" a intentar resolver esas pruebas en el sitio web del proyecto. Os aseguramos que son puzzles singulares y que desde luego os harán pensar un poco.

De fuerza bruta, nada. En el anuncio los responsables de este benchmark explican que los modelos no pueden ahora recurrir a la fuerza bruta para encontrar soluciones, algo que era un pequeño problema en ARC-AGI-1. Para evitarlo se introduce la nueva métrica de eficiencia, que requiere que los modelos interpreten lo que ven en tiempo real, que "perciban", no que respondan en base a la memorización.

Los modelos de IA deben esforzarse más. Mike Knoop, uno de los responsables del desarrollo de estas pruebas, explicaba cómo ARC-AGI-2 es "el único benchmark que sigue sin haber sido superado por los modelos de IA pero que sigue siendo fácil para los humanos". En las nuevas pruebas se ve según él cómo los modelos de IA no asignan la semánica a estos puzzles —algo que los humanos hacemos de forma intuitiva— y lo pasan mal si tienen que aplicar simultáneamente varias reglas para resolver el problema.

Pros y contras de ARC-AGI. Estas pruebas son desde luego un enfoque singular que permite tratar de evaluar un aspecto de los actuales modelos de IA que otras pruebas no miden, pero hay un peligro aquí: que quienes desarrollan estos modelos los "truquen" o personalicen para enfocarlos a resolver precisamente este tipo de puzzles visuales aunque luego en otros tipos de generalización los modelos fracasen. Aun así representan una forma llamativa de influir en el desarrollo de nuevos modelos de IA, y una que además es interesante. Basta de IAs sabelotodo: lo que queremos son IAs que razonen como lo hacemos los seres humanos y se adapten a situaciones y problemas completamente nuevos.

Necesitamos IAs que pregunten cosas que nadie había preguntado. La conversación sobre la IA en los últimos tiempos plantea un dilema: las IAs tienen todas las respuestas para problemas sencillos, pero no se preguntan cosas que nadie había pensado. Los críticos de los actuales modelos destacan cómo las IAs no generan nuevo conocimiento —no descubren nuevos medicamentos, nuevos materiales o la solución para la fusión nuclear— sino que se limitan a combinar lo que ya sabemos para tratar de abrir nuevos caminos. Eso puede ayudar a los investigadores humanos, pero no es ni mucho menos lo que se espera de la gran revolución de la IA.

