Magazine - benchmarks

En 2025 la IA parecía haberse topado contra un muro de progreso. Un muro volatilizado en febrero de 2026

Javier Pastor — Tue, 17 Feb 2026 13:30:00 +0000

Recuerdo con cariño aquella época en la que Intel y AMD se peleaban por lograr crear la primera CPU capaz de llegar a 1 GHz de frecuencia de reloj. Aquella carrera la ganó (¡sorpresa!) AMD, pero hasta que se produjo aquel hito el ritmo era vertiginoso. O eso nos parecía, porque con la IA el ritmo de lanzamientos está absolutamente desbocado.

Vaya semanitas llevamos, queridos lectores. Veamos:

27 de enero: Kimi.ai lanza Kimi J2.5
5 de febrero: Anthropic lanza Claude Opus 4.6
5 de febrero: El mismo día OpenAI lanza GPT-5.3-Codex
5 de febrero: Kuaishou lanza Kling 3.0
12 de febrero: Z.ai lanza GLM-5
12 de febrero: ByteDance lanza Seedance 2.0
12 de febrero: MiniMax lanza MiniMax 2.5
16 de febrero: Alibaba lanza Qwen3.5-397B-A17B
Próximamente: DeepSeek v4, ¿Llama?, Gemini 3.1, ...

El ritmo es absolutamente frenético, y los LLMs que hace unos ~~meses~~ semanas parecían ser fantásticos ahora ya no lo son tanto. Las nuevas versiones de esos modelso de lenguaje no paran de evolucionar, y las empresas de IA siguen ofreciendo novedades de forma constante. Casi mareante.

Eso, por supuesto, tiene su lado bueno y su lado malo. Terminamos 2025 con cierto hastío ante una IA que prometía mucho pero no acabó de cambiar apenas nada. Solo a finales de año se vio una revolución palpable con esa combinación espectacular que formaban Claude Code y Opus 4.5.

En Xataka

Mientras las tecnológicas prescinden de juniors para sustituirlos por IA, IBM está haciendo lo contrario: pescar gangas

El binomio de Anthropic maravillaba a los desarrolladores, que por primera vez parecían estar de acuerdo a la hora de declarar que con este tipo de plataforma podían pedirle a la IA lo que uno quisiera, que ella te lo programaba del tirón y casi siempre sin problemas. Por supuesto en ese discurso había algo de exageración, pero ciertamente la capacidad de Opus 4.5 y el grado de autonomía y versatilidad de Claude Code parecieron marcar un punto de inflexión.

Luego llegó OpenClaw y eso ha vuelto a disparar las expectativas por los agentes de IA, pero en paralelo estamos viendo una auténtica fiebre de lanzamientos de nuevos modelos de IA generativa, tanto en vídeo (Kling 3.0 y sobre todo Seedance 2.0 han sido fenómenos virales en si mismos) como en texto/código. Y con cada nuevo modelo, la promesa de que el rendimiento va superando a la generación anterior. Al menos, claro, en los benchmarks.

A la izquierda, benchmarks internos de Alibaba para Qwen3.5. A la derecha, los de Anthropic para Opus 4.6. Cada uno se compara con quien considera oportuno.

Esos gráficos de barras de la imagen superior se han convertido en una constante, sobre todo cuando quien lanza el modelo es una empresa china. Si el que lanza es OpenAI, Google o Anthropic, lo que se prefiere son las tablas. Sea como fuere, el resultado siempre nos lleva a lo mismo: cada modelo es mejor que su predecesor y, normalmente, que muchos de la competencia.

Fatiga de las suscripciones... de IA

El problema de esto es que esa carrera no parece acabar nunca, y un modelo que parece fantástico hoy no lo es tanto mañana, cuando su competidor puede superarle por poco, pero además puede ser bastante más barato —los modelos chinos lo suelen ser— u ofrece otras ventajas como mayores ventanas de contexto para que podamos introducir textos más y más largos —por ejemplo, grandes repositorios de código— como parte del prompt.

Y claro, eso plantea un problema para los usuarios. Si Opus 4.5 era tan bueno, uno podría apuntarse al plan Pro o al Max y pagar un año por adelantado, pero eso es a priori arriesgado, porque aunque tendrás acceso a nuevos modelos cuando los saques, habrás dedicado tu inversión en suscripciones de IA al modelo de Anthropic sin tener ya tanto margen para probar los de los rivales.

Aquí se imponen las suscripciones cortas: suscribirse a un modelo un mes para poder tener margen de maniobra por si quiero probar otro modelo al mes siguiente (o probar dos o tres modelos el mismo mes, que también es un caso común).

Los precios de las suscripciones a servicios de IA no son además facilitadores de esas pruebas múltiples. Lo normal es pagar 20 euros por una suscripción de un mes, y aunque los modelos chinos suelen ser bastante más baratos, también suelen estar un escalón por detrás en capacidad si uno necesita las máximas prestaciones.

Pero aquí se repite una y otra vez el problema: si me suscribo ahora a GPT-5.3-Codex, que todo el mundo dice que es fantástico, ¿cuánto tiempo lo pago, un mes? ¿O me suscribo además a GLM-5 para probar, y ya el mes que viene probaré Opus 4.6 y MiniMax 2.5?

En Xataka

"Hola, computadora": el futuro que nos pinta la IA de Anthropic ahora es el mismo que planteaba Star Trek en 1986

Todas esas decisiones son difíciles porque la percepción de cada modelo depende de cada usuario. Cada uno de ellos tiene sus necesidades, su presupuesto y sus propias experiencias con cada modelo, así que por mucho que los benchmarks digan una cosa, con los modelos de IA nos está pasando como con los vinos: por mucho que nos digan que uno es mejor que otro, nosotros los percibimos de forma muy personal.

Y ese avance frenético hace que además se haya recuperado esa expectativa por modelos que realmente marcan la diferencia. El vibe coding no es perfecto, pero cada vez resuelve mejor nuestras necesidades, y lo mismo ocurre con los agentes de IA como OpenClaw, que con sus luces y sus sombras demuestran que ese futuro en el que tengamos un empleado de IA —aunque al principio pueda ser algo torpe— funcionando 24/7 no parece estar tan lejos.

Son tiempos vertiginosos y fascinantes para la IA. Otra vez.

Imagen | Mohammad Rahmani

En Xataka | China llevó robots humanoides al mayor espectáculo televisivo del país: los hizo practicar kung-fu con precisión milimétrica

Es hora de que empecemos a valorar a modelos como GPT 5.2 no en base a su rendimiento sino a otra cosa: si son baratos

Javier Pastor — Sun, 14 Dec 2025 10:30:00 +0000

En 2019 a un joven investigador llamado François Chollet se le ocurrió crear un benchmark para IA. La idea era como poco rarita, porque en 2019 no había prácticamente nada con lo que probar ese benchmark. En realidad Chollet se adelantó al futuro, porque aun faltaban tres años para que apareciera ChatGPT y se iniciara la fiebre por la IA.

Luego llegarían más y más benchmarks sintéticos para medir el rendimiento de las IAs, pero ARC-AGI era un benchmark distinto. Mientras que en muchos otros benchmarks la capacidad de memorización del modelo es crucial, aquí se ponía a prueba la capacidad de pensamiento abstracto y generalización de la IA.

En Xataka

Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil

Los problemas propuestos en ARC-AGI y su sucesor, ARC-AGI 2, constan en gran medida de puzzles visuales que son relativamente fáciles de resolver por los seres humanos, pero que hasta ahora eran casi imposibles para las máquinas. En los últimos dos años hemos ido viendo no obstante cómo los modelos de IA iban mejorando en comprensión abstracta y generalización, y poco a poco resolvieron más y más puzzles de ARC-AGI. ¿El problema?

Gastaban un dineral para hacerlo.

Y ahí es donde entra GPT-5.2.

La IA puede resolver casi todo. La pregunta es cuánto cuesta hacerlo

El año pasado o3-preview logró resolver el 87% de ARC-AGI 1. El hito fue tan llamativo que hasta los propios responsables del benchmark publicaron un anuncio al respecto. Para lograrlo, eso sí, o3-preview ejecutó 100 tareas con un coste total de 456.000 dólares: cada una costó 4.560 dólares.

Fuente: ARC-AGI Prize

Ayer se publicó GPT-5.2, la última versión del modelo fundacional de IA de OpenAI. Su rendimiento en otros benchmarks era excepcional, pero lo que realmente llama la atención es cómo se comportó en ARC-AGI 1. No por lograr resolver un 90,5% de los problemas con GPT-5.2 Pro (X-High), no, sino por cuánto costó cada tarea.

La cifra: 11,65 dólares por tarea. 390 veces menos que hace un año.

De hecho una versión aún más barata, GPT-5.2 (X-High) logró un 86,2% con un coste de tan solo 0,96 dólares por tarea. Alucinante.

ARC-AGI 2 sigue siendo un desafío para la mayoría de modelos, pero GPT-5.2 ha dado otro salto de calidad excepcional. Fuente: ARC-AGI Prize.

Chollet y su equipo sabían que la IA acabaría superando su test ARC-AGI tarde o temprano, así que en marzo de 2025 publicaron ARC-AGI 2, la segunda versión de su benchmark, para ponérselo aún más difícil a las máquinas. Ese test es aún un verdadero desafío para la mayoría de modelos, que hasta ahora apenas habían resuelto un 38% de los problemas en el mejor de los casos (Claude Opus 4.5).

GPT-5.2 ha logrado resolver casi el 55%. Es un salto colosal.

Y de nuevo, con un coste realmente sorprendente de 15,72 dólares por tarea. La tendencia es clara: la IA no solo está volviéndose mejor, sino que es cada vez más barata.

Eso son buenas noticias para todos, porque equilibran esa ya clara percepción de que el escalado no funciona tanto como en el pasado. Los saltos en rendimiento no son tan llamativos —aunque estas pruebas con ARC-AGI desmontan ese argumento—, pero sí lo son los saltos en cuanto a coste.

La carrera de la IA parece haber alcanzado un punto de inflexión. La verdadera pregunta no es si la IA logrará resolver un problema, sino cuánto costará resolverlo. Y la evolución de GPT-5.2 parece demostrar claramente algo crucial: que la IA cada vez resuelve más cosas a menor precio.

Eso es además algo crítico para una OpenAI que está en una situación económica delicada. Ahora que estamos más en una especie de meseta en cuanto a ganancias en rendimiento, lograr ser más baratos y eficientes es clave para el futuro de la empresa. Y parece que GPT-5.2, además de una respuesta a Gemini 3 Pro, es un paso claro en esa dirección.

En Xataka | Hay una carrera en la que Anthropic le está ganando la partida a OpenAI: en la de ser rentable

El problema no es que la IA no sea capaz de leer la hora. El problema es confirmar que no razona y solo repite lo que ha visto

Javier Pastor — Wed, 19 Nov 2025 08:00:00 +0000

Hace unos meses a un grupo de investigadores españoles se les ocurrió poner a prueba a un chatbot de IA con una prueba curiosa. Subieron al chatbot una imagen de un reloj analógico y le preguntaron a la IA un simple "¿Qué hora es en ese reloj?". La IA falló de forma inquietante.

Máquina, ¿me dices la hora? Los investigadores de la Universidad Politécnica de Madrid, la Universidad de Valladolid y el Politecnico de Milano firmaron hace un mes un estudio en el que quisieron evaluar cómo de inteligente era la inteligencia artificial de esos modelos. Para ello construyeron un gran conjunto de imágenes sintéticas de relojes analógicos —disponibles en Hugging Face— en los que se mostraban 43.000 horas distintas.

Antes de afinar (fine-tuning) su comportamiento los modelos de IA fallaron de forma consistente al intentar decir la hora. Tras el ajuste el comportamiento fue mucho mejor, pero aun así imperfecto. Que no debería ocurrir con una cuestión tan "simple" para los humanos.

Resultado desastroso. A partir de ahí fueron preguntando a cuatro modelos de IA generativa qué hora mostraban esas imágenes de esos relojes analógicos. Ninguno de ellos logró decir la hora de forma precisa. Ese grupo de modelos estaba compuesto por GPT-4o, Gemma3-12B, LlaMa3.2-11B y QwenVL-2.5-7B, y todos ellos tuvieron serios problemas para "leer" la hora y diferenciar por ejemplo las manecillas o el ángulo y dirección de esas manecillas en relación a los números marcados en el reloj.

Ajuste fino para mejorar. Tras esas primeras pruebas, el grupo de investigadores logró mejorar de forma notable el comportamiento de esos modelos tras realizar un ajuste fino: los entrenaron con 5.000 imágenes adicionales de ese conjunto de datos y luego volvieron a evaluar el comportamiento de los modelos. Sin embargo los modelos volvieron a fallar de forma consistente cuando los probaron con un conjunto distinto de imágenes de relojes analógicos. La conclusión estaba clara.

En Xataka

Tenemos un problema filosófico con las IA generativas: nos están dando la razón en todo lo que les pedimos

No saben generalizar. Lo que descubrieron con esta prueba fue la confirmación de lo que venimos observando desde el principio con los modelos de IA: son buenos reconociendo datos con los que están familiarizados (memorizados), pero a menudo fallan en escenarios a los que nunca se han enfrentado y que no forman parte de sus conjuntos de entrenamiento. O lo que es lo mismo: eran incapaces de generalizar.

Dalí entra en escena. Para tratar de averiguar las causas de esos fallos los investigadores crearon nuevos conjuntos de imágenes en los que por ejemplo utilizaban los célebres relojes distorsionados de Dalí, o en los que incluían flechas al final de las manecillas. Los seres humanos son capaces de decir la hora en relojes analógicos aun estando distorsionados, pero para los modelos de IA aquello fue un problema enorme.

Si hacen esto con relojes, imagina con análisis médicos. El peligro de estas conclusiones es que vuelven a detonar el debate sobre si los modelos de IA generativa son ciertamente artificiales y generativos, pero no demasiado inteligentes. Si tienen estas dificultades para identificar las manecillas o sus orientaciones, la cosa es peligrosa si lo que tienen que analizar los modelos son imágenes médicas o, por ejemplo, imágenes en tiempo real de un coche autónomo circulando por una ciudad.

Las IAs son tontísimas. Aunque es cierto que los modelos de IA generativa son fantásticos como ayuda en diversos escenarios como la programación, la realidad es que lo que hacen es "regurgitar" respuestas que ya forman parte de sus datos de entrenamiento. Como explicaba Thomas Wolf, Chief Science Officer de Hugging Face, una IA generativa "nunca va a preguntarse cosas que nadie había pensado o que nadie se había atrevido a preguntar". Aunque gracias a su descomunal memoria y entrenamiento pueden recuperar multitud de datos y presentarlos de formas útiles, que encuentren soluciones a problemas para los que no han sido entrenados es muy complicado. Para expertos como Yann LeCun la realidad es clara: la IA generativa es tontísima y, además, un callejón sin salida.

Fuente: clocks.brianmoore.com

La IA tampoco dibuja relojes muy bien. Al experimento de esos investigadores se le suma otra pequeña prueba que vuelve a poner en entredicho la capacidad de la IA generativa. Se trata de pedirles a distintos modelos que creen el código que permita mostrar un reloj analógico con la hora actual. Un diseñador llamado Brian Moore ha querido compartir el resultado de varios modelos de IA y lo cierto es que el resultado obtenido en la mayoría de ellos es terrible, aunque otros como Kimi K2 logran un buen resultado. Nosotros hemos probado con los recientes Grok 4.1 y GPT-5.1. Tras insistir un poco Grok 4.1 ha dibujado el reloj perfecto y funcionando. Con GPT-5.1 no ha habido forma, al menos en nuestras pruebas.

Una realidad preocupante. Esa incapacidad de resolver tareas que parecen sencillas hace que desde luego estos modelos no queden en buen lugar. Es cierto que un buen prompt puede ayudar a resolver algunas de esas limitaciones, pero lo que cada vez resulta más evidente es que los modelos de IA siguen cometiendo errores a pesar del paso del tiempo. La teórica revolución de esta tecnología necesita precisamente erradicarlos, y no parece que estemos en vías de conseguirlo. Los modelos mejoran, sí, pero no lo suficiente para que podamos fiarnos de ellos al 100%.

Imagen | Yaniv Knobel

En Xataka | Por si no había suficientes empresas de IA, Jeff Bezos acaba de volver de las sombras para levantar otra más, según el NYT

Gemini 3 promete más calidad y precisión que nunca en sus respuestas. La cuestión es si realmente notaremos la diferencia

Javier Pastor — Tue, 18 Nov 2025 16:01:06 +0000

Google ha anunciado el lanzamiento de Gemini 3, su nuevo modelo de inteligencia artificial. En la empresa afirman que es su modelo de razonamiento más avanzado porque "se ha diseñado para comprender la profundidad y los matices".

Gemini 3 estará además disponible de serie como parte del Modo IA en el renovado buscador de Google (en este caso y por el momento, solo en EEUU). Es la primera vez que Google ofrece las prestaciones de su modelo de IA desde el primer día en el buscador, pero también llega a la app de Gemini y los desarrolladores que trabajan con AI Studio y Vertex AI.

Tras el éxito de Gemini 2.5 Pro y Flash, la nueva versión llega en 30 nuevos idiomas entre los que están el catalán, el euskera y el gallego, y como decimos se puede comenzar a probar desde hoy en Estados Unidos... o fuera de allí mediante una VPN.

Gemini 3 promete. Al menos, en las pruebas

En Google destacan cómo el comportamiento del modelo ha sido sobresaliente en diversas pruebas sintéticas. Así, Gemini 3 encabeza la clasificación de LMArena con 1.501 puntos —el primero en superar la barrera de los 1.500 puntos—.

Según Google, los resultados de las pruebas de Gemini 3 lo sitúan por encima de todos sus competidores en prácticamente todos los escenarios.

De hecho, logra razonar "al nivel de un doctorado" según las pruebas de Humanity's Last Exam (supera el 37,5% de la prueba sin herramientas) y GPQA Diamond (91,9%). También avanza de forma espectacular en matemáticas, como demuestra el 23,4% de la prueba MathArena Apex: GPT 5.1 obtiene un 1,0% y Claude Sonnet 4.5 un 1,6% en la misma prueba, por ejemplo.

El modelo quiere ser además más directo: sus respuestas son más "concisas [...] y prefiere ofrecer información valiosa en lugar de recurrir a clichés y halagos. Te dice lo que necesitas oír, no solo lo que quieres oír".

En Xataka

Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude

El modo 'Deep Think' de Gemini 3 va incluso más allá en pruebas: en Humanity's Last Exam logra un 41,0%, pero es que además en el exigente ARC-AGI 2 logra un 45,1% (con ejecución de código), lo que demuestra el avance también en ese razonamiento abstracto y comprensión visual.

Gemini 3 te explica el mundo de forma sencilla

El modelo cuenta con una ventana de contexto de hasta un millón de tokens, lo que permite utilizarlo por ejemplo para analizar enormes repositorios de código o de texto y luego trabajar sobre esos datos.

Su soporte multimodal permite analizar todo tipo de información. Por ejemplo, Gemini 3 puede descifrar y traducir recetas escritas a mano en distintos idiomas para crear un libro de cocina familiar que poder compartir.

O analizar tus partidos de pickleball (suponemos que lo mismo ocurre en otros deportes) e identificar áreas en las que puedes mejorar y generar un plan de entrenamiento. O escrutar los datos de un paper de investigación y a partir de ellos generar código para una guía interactiva que nos ayude a comprender mejor esos estudios.

De hecho, la integración con Google Search es una parte especialmente importante de Gemini 3, que al estar "embebido" en AI Mode tiene capacidad para generar elementos visuales interactivos (widgets, calculadoras, simulaciones) en tiempo real. En Google quieren que la búsqueda sea más interactiva que nunca, y eso hará que en ocasiones las respuestas no sean un texto sin más, sino una pequeña webapp interactiva que nos permita entender mejor la respuesta.

Programación (y agentes) al poder

El otro elemento crucial del modelo está en su capacidad en el ámbito de la programación. Sus resultados en pruebas de este tipo vuelven a ser sobresalientes, y por ejemplo encabeza la clasificación de WebDev Arena con una puntuación de 1.487 ELO.

El modelo se comporta ahora de forma mucho más potente en la parte visual.

También obtiene una puntuación del 54,2% en Terminal-Bench 2.0, que evalúa la capacidad de un modelo para usar herramientas y operar un ordenador a través de un terminal. Además, supera con creces a 2.5 Pro en SWE-bench Verified (76,2%), una prueba comparativa que mide la eficacia de los agentes de programación.

Esas capacidades de Gemini 3 para programar se quieren aprovechar en una nueva plataforma de desarrollo de agentes llamada Google Antigravity. La experiencia para el desarrollador es la de usar un entorno de desarrollo integrado (IDE) con IA "convencional", pero sus agentes pueden tener acceso al editor, al terminal y al navegador.

En Xataka

No sabemos qué miden los benchmarks de IA. Así que hemos hablado con el español que ha creado uno de los más difíciles

Eso significa que dichos agentes pueden planificar y ejecutar de forma autónoma tareas de software complejas y validar su propio código, algo que hace que más que nunca los desarrolladores humanos puedan dedicarse a revisar y auditar ese código.

El verdadero reto de los modelos más recientes

Sobre el papel Gemini 3 se postula como un modelo que realmente puede marcar la diiferencia frente a sus competidores. Los resultados en las pruebas y la propia trayectoria de Gemini nos hacen pensar que efectivamente el comportamiento de este modelo será notable.

Sin embargo la cuestión es si realmente notaremos la diferencia. En los últimos meses hemos visto cómo otras empresas de IA han lanzado nuevos modelos, pero el impacto para una gran mayoría de usuarios ha sido discreto: los modelos anteriores ya se comportaban realmente bien, y aunqeu los nuevos sin duda aportan mejoras, para muchas consultas dichas mejoras son permiten percibir ese salto de rendimiento.

Aquí vemos dos formas de que Google efectivamente demuestre la capacidad de estos modelos. La primera oportunidad para Gemini 3 estará probablemente en el ámbito de la programación, y serán estos profesionales los que probablemente podrán sacar más partido de esas capacidades adicionales.

En Xataka

Google es la gran tapada de la IA: con Gemini lo está haciendo prácticamente todo bien

Pero para el resto de los usuarios, serán ese nuevo AI Mode y la Gemini app los que tendrán que lograr que notemos esas prestaciones. Nos intriga esa capacidad de responder con pequeños elementos interactivos —gráficos, widgets—, y puede que con ellos realmente sí descubramos esa nueva capacidad de este chatbot.

En Xataka | Despidamos a Google Assistant una década después. Google ha empezado a borrar su código para dejar una única opción: Gemini

Alguien le dio 10.000 euros a una IA china y a otra estadounidense para que invirtieran. Y hubo un resultado inesperado

Javier Pastor — Thu, 30 Oct 2025 08:00:00 +0000

¿Qué pasaría si le dieras 10.000 dólares a GPT-5 para que los invirtiese en criptomonedas? ¿Y si se los dieses al mismo tiempo a otros modelos y compitiesen entre ellos? Eso es justo la idea que han tenido en Nof1... y el resultado está siendo fascinante.

Seis modelos invirtiendo en criptos. Los responsables de Nof1 han creado Alpha Arena, un nuevo tipo de benchmark que según ellos "se hace más difícil cuanto más inteligente es la IA". La idea es relativamente simple: medir el rendimiento de seis modelos de última generación para ver cómo se comportan cuando se les dan 10.000 dólares (reales) y los invierten en criptomonedas en mercados reales. Los contendientes son los siguientes:

GPT-5
Gemini 2.5 Pro
Claude Sonnet 4.5
Grok 4
DeepSeek Chat v3.1
Qwen 3 Max

DeepSeek ha convertido sus 10.000 dólares en casi 20.000, y Qwen en 15.000, fantástico. GPT-5 y Gemini 2.5 Pro han perdido el 65% de su valor y están ambos en los 3.500 dólares. Desastre total.

DeepSeek y Qwen triunfan, GPT-5 y Gemini se hunden. El resultado de estos 11 días desde que se inició esta "carrera" es fascinante. Los dos modelos chinos, DeepSeek y Qwen, han obtenido beneficios enormes: en DeepSeek el retorno es del 97% en estos momentos (llegó a a ser del 123%), mientras que a Qwen no le va mal con un 53%. Claude (0,84%) y Grok (-8,2%) se mantienen o pierden ligeramente, pero atentos, porque GPT-5 (-65,7%) y Gemini 2.5 Pro (66%) en estos momentos pierden dos terceras partes de lo invertido.

El resumen de ganadores y perdedores no solo muestra ese retorno positivo o negativo, sino también algo curioso: el número de operaciones. GPT-5 (75 movimientos) y sobre todo Gemini 2.5 Pro (¡193!) son extremadamente inquietos. Aunque no tiene por qué ser así siempre, los que menos operan son los que más están ganando.

Fortunas cripto que vienen y se van. Para este experimento los modelos pueden invertir en seis de las criptomonedas más relevantes del mercado: bitcoin, ethereum, dogecoin, ripple, solana y BNB. Los modelos deciden si tomar posiciones en una o varias, así como las cantidades y el nivel de apalancamiento. Las posiciones se mantienen normalmente unas horas, aunque en algunos casos pueden mantenerse durante días.

Aprendiendo poco a poco. Todos ellos compiten desde el pasado 18 de octubre en la "primera temporada" de un experimento que se prolongará hasta el 3 de noviembre. Como explican sus creadores, esa primera iteración permitirá obtener las primeras conclusiones sobre cómo estos modelos rinden en el ámbito financiero.

En Xataka

Bitcoin acaba de alcanzar un nuevo máximo histórico de 110.000 dólares porque la banca y las empresas han pasado de odiarlo a amarlo

Aquí venimos a ganar dinero. El objetivo es simple: maximizar los beneficios y minimizar las pérdidas (PnL). Esta primera temporada es tan solo eso, porque a partir de ahí se aplicará lo aprendido tras cada temporada para pulir los prompts y añadir nuevas características al experimento y así lograr crear modelos que en teoría se comportarán cada vez mejor a la hora de invertir en mercados financieros.

Trading algorítmico a lo bestia. Lo que están haciendo estos modelos sería una locura para inversores humanos, sobre todo porque todos ellos no solo se exponen a la volatilidad del mercado cripto, sino que además la multiplican porque hacen uso del apalancamiento (leverage). Con este mecanismo uno puede lograr beneficios enormes mucho más rápido, pero el riesgo es también extremo. Los modelos de hecho usan apalancamientos absolutamente extraordinarios de 20x o 25x, y pueden tomar tanto posiciones a corto (short, se "apuesta" a que el precio de un activo bajará) o a largo (long, se "apuesta" a que el precio del activo subirá).

El funcionamiento del experimento-benchmark es relativamente sencillo, pero se irá complicando en futuras temporadas.

Las máquinas no entran en pánico. Para tratar de controlar esos riesgos, los modelos tienen en sus prompts reglas claras en cuanto a límites de riesgo (estableciendo señales de stop loss claras, por ejemplo) o de confianza en sus criterios. Y además, las siguen, lo que permite que salvo que se produzcan esas señales, los modelos mantengan su posición. Aquí, por cierto, hablamos de trading de frecuencia media o baja: las decisiones se toman en minutos o incluso horas, no en microsegundos. Eso, afirman los creadores, permite responder a la pregunta de si un modelo puede tomar buenas decisiones si tiene suficiente tiempo e información.

Ni se os ocurra hacerlo en casa. Este experimento es solo eso, un experimento, y de hecho financieramente hablando hace aguas por todas partes. Para empezar, porque el periodo de prueba de esta primera temporada es extremadamente corto y no permite evaluar el comportamiento a largo plazo. Y para terminar (entre otras muchas cosas), porque la información a la que tienen acceso los modelos es muy limitada. No tienen en cuenta noticias relacionadas con este ámbito y solo cuentan con datos numéricos que corresponden a precios medios y volúmenes actuales e históricos, y algunos indicadores técnicos. Esa información.

En la parte derecha DeepSeek v3.1 confiesa cómo mantiene su posición porque no se cumple ninguna condición que la invalide, y pinchando en ella se puede ver qué tiene en cuenta (valor de BTC o ETH, por ejemplo) para modifiar o no ese criterio.

Los modelos lo cuentan todo. Uno de los apartados de la interfaz muestra el "Model Chat" donde es posible ver cómo cada modelo "reflexiona" sobre su posición. Si pinchamos en esa reflexión podremos ver todos los datos actuales e históricos con los que ha trabajado para llegar a esa decisión (mantengo mi posición, la cambio) y así podemos enterarnos en cada momento de sus razones para mover ficha.

Que ganen ahora no significa que sean los mejores. Los responsables de Nof1 explican que esto no va de declarar el mejor modelo de trading de los seis, porque esto es solo un experimento. Como dicen, "somos profundamente conscientes de los fallos de esta primera temporada, incluyendo, entre otros: sesgo de respuesta, tamaños de muestra limitados/falta de rigor estadístico y brevedad del período de evaluación". Este experimento se irá repitiendo a lo largo de distintas temporadas y con novedades que se sumarán a los mecanismos de decisión e información de la que disponen los modelos, y sin duda todo ello contribuirá a determinar mejor cómo se comportan estos modelos y, quizás, cómo tener claro si efectivamente unos se comportan mejor que otros de forma consistente. Fascinante.

Imagen | Aedrian Salazar

En Xataka | Un país ha emprendido el mayor experimento con criptomonedas del mundo: Bután y los 800.000 carnés de identidad con Ethereum

El nuevo "test" para descubrir si un modelo de IA o no es verdaderamente inteligente: ponerle a jugar a Pokémon

Javier Pastor — Sun, 20 Apr 2025 08:31:41 +0000

El psicólogo suizo Jean Piaget tenía una definición de inteligencia especialmente interesante. Él decía que "la inteligencia es lo que usas cuando no sabes qué hacer". Ese puede ser un elemento clave de una nueva tendencia para medir la capacidad de la inteligencia artificial. Una que pone a la IA a jugar a Pokémon.

¿Cómo de inteligente es la inteligencia artificial? Ya hay pruebas que permiten valorar la capacidad de la IA a la hora de resolver problemas científicos, matemáticos o de programación. Todo eso ayuda a "medir" el progreso de estos modelos, pero frente a todas esas técnicas hay una idea singular: la de medir la citada capacidad de la IA jugando a Pokémon.

Claude inició la tendencia. Los responsables de Anthropic tuvieron la ocurrencia de probar cómo se comportaría su modelo de IA, Claude 3.7, al jugar a Pokémon Red. Así que hicieron uso de su herramienta de navegación automática para ver cómo utilizaba sus capacidades para ir jugando al videojuego. Crearon un canal de Twitch e incluso hay un seguimiento de cómo le está yendo en Reddit.

En Xataka

Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude

Y ahora Gemini Pro recoge el guante. Un desarrollador que no tiene afiliación alguna con Google ha decidido aplicar la misma idea, pero con Gemini Pro 2.5 Experimental como modelo de IA para probarla. En su canal de Twitch está mostrando una partida de Pokémon Blue (era el que conocía más este desarrollador) ejecutándose en un emulador de la Game Boy Advance.

¿Quién gana? De momento Gemini Pro 2.5 Experimental parece estar haciéndolo algo mejor. Claude se quedó atascado en una fase de juego un par de veces, por ejemplo, lo que ha obligado a volver a iniciar sus partidas. Gemini parece estar avanzando sin tantos problemas, aunque no juega de la misma manera que Claude y por ejemplo tiene acceso a un minimapa que según su creador compensa una de las limitaciones de Gemini, que no cuenta con herramientas de navegación automática como Claude.

Por qué Pokémon para la Game Boy. La versión de Pokémon para la Game Boy Advance que se está usando en estos experimentos es perfecta para evaluar esas capacidades de los LLM por varias razones. Por ejemplo, se trata de un videojuego por turnos, lo que permite a la IA "pensar" su siguiente movimiento. Pero además es un juego gráficamente simple, lo que hace más sencillo para estos modelos "ver" la pantalla y entender lo que pasa en cada momento sin que eso sea muy costoso a nivel de recursos.

Un benchmark sorprendentemente útil. Esta forma de evaluar lo inteligente que es una IA puede ser tan reveladora como las pruebas de programación o de matemáticas. O más, incluso. Si alguien le da a un niño de 10 años una Nintendo Switch, ese niño aprenderá a jugar a cualquier juego en minutos. Sin embargo las IAs suelen tenerlo especialmente difícil en este escenario, y acaban ejecutando movimientos ilegales.

Nada de memorización. Muchos de los benchmarks utilizados para medir la capacidad de los modelos de IA se basa en su "memoria". Cuando resuelven un problema es normalmente porque la solución forma parte de su conjunto de datos de entrenamiento, o ya había un problema similar solucionado y que pueden "replicar" o "regurgitar". En esta aproximación la propuesta es algo diferente, y exige cierta capacidad de adaptación a los modelos de IA.

ARC-AGI y el juego Snake. En febrero la ARC Prize Foundation, que desarrolla un benchmark igualmente llamativo para modelos de IA, experimentó con otro videojuego sencillo: una versión del mítico Snake que enfrentaba a diversos modelos de IA para ver cómo se comportaban. Los modelos de razonamiento fueron los claros ganadores (el 78% de victorias), y de nuevo esto les mostró la relevancia de este tipo de videojuegos para mejorar los modelos de IA en el futuro.

La IA aprende a adaptarse. Como veníamos diciendo, este tipo de benchmarks son especialmente interesantes porque nos permiten comprobar si un modelo de IA es capaz de adaptarse a nuevas situaciones y retos y de superarlas. Es algo que empresas como DeepMind llevan tiempo haciendo con algunos de sus desarrollos, y sin duda es una alternativa interesante que explorar para los desarrolladores de estos modelos.

En Xataka | He usado Claude 3.7 durante horas. Es lo más cercano a un cerebro humano que he sentido con una IA

No sabemos qué miden los benchmarks de IA. Así que hemos hablado con el español que ha creado uno de los más difíciles

Javier Pastor — Sat, 12 Apr 2025 09:30:14 +0000

Gemini 2.5 Pro es el mejor modelo de IA de la historia. El más inteligente. Al menos, ahora mismo. No lo digo yo, lo dice la clasificación de Chatbot Arena, una plataforma en la que se ejecutan diversas pruebas o benchmarks para tratar de medir la capacidad global de los modernos modelos de IA.

Según esas pruebas, en estos momentos Gemini 2.5 Pro Experimental, lanzado el pasado 25 de marzo, tiene una puntuación de 1.440 puntos, bastante por encima de GPT-4o (1.406), Grok 3 (1.404), GPT-4.5 (1.398) y desde luego que un DeepSeek R1 que a pesar de su fama está en séptimo lugar con una puntuación de 1.359 puntos.

En ranking actual de Chatbot Arena coloca a Gemini Pro 2.5 Experimental como el modelo de IA más capaz en estos momentos. Eso (probablemente) no dure mucho.

La propia Google presumía de la capacidad de Gemini 2.5 Pro Experimental en el anuncio oficial. Como suele ocurrir en estos anuncios, las empresas muestran una tabla en las que comparan su rendimiento con el de otros modelos equiparables en distintas pruebas.

En casi todas ellas Google aplastaba a sus rivales en pruebas muy conocidas en este segmento. Está por ejemplo el Humanity's Last Exam (conocimientos generales y razonamiento), GPQA diamond (ciencia), AIME 2025 (matemáticas), LiveCodeBench v5 y SWE-bench verified (programación) o MMMU (razonamiento visual).

En Xataka

Antes de hablar de inteligencia artificial... ¿qué es la inteligencia?

Todos esos benchmarks tratan de medir la capacidad de estos modelos en ámbitos más o menos específicos, y todos ayudan a demostrar que los modelos, efectivamente, van mejorando. Y sin embargo ninguno de ellos responde a la pregunta fundamental:

¿Es la IA tan inteligente como el ser humano?

Ahí está lo realmente complicado, porque la definición de inteligencia tampoco es del todo clara. Hay distintos tipos de inteligencia, de hecho, y medirlas en humanos tampoco es sencillo o siquiera posible. Y comparar la capacidad de una IA con la capacidad de una inteligencia humana tampoco suele ser nada fácil.

Algunos expertos se preguntan si los laboratorios de IA no estarán haciendo trampas con los benchmarks

Hay de hecho quien argumenta que el progreso de los modelos de IA es engañoso. Lo hacía recientemente Dean Valentine, de la startup ZeroPath. Él y su equipo crearon un sistema de IA que analiza grandes proyectos de código en busca de problemas de seguridad. Con Claude 3.5 Sonnet notaron un gran salto, pero a partir de ahí las posteriores versiones les han parecido mucho menos llamativas.

De hecho, este experto apuntaba a que hoy en día muchas de las empresas que lanzan estos modelos se centran demasiado en salir bien en la foto de los benchmarks existentes y más populares y en "sonar inteligentes" en las conversaciones con los seres humanos. Se pregunta si los laboratorios de IA están haciendo trampas y mintiendo: para él la evolución que muestran los benchmarks no se corresponde con los beneficios reales al usarlos.

FrontierMath y el reto de resolver problemas que (casi) nadie ha resuelto

Pero hay intentos de responder a esa pregunta. Uno de ellos proviene del equipo que desarrolla el proyecto ARC-AGI 2, un conjunto de pruebas que se derivan de la paradoja de Moravec: son relativamente fáciles para el ser humano, pero muy difíciles para los modelos de IA.

Jaime Sevilla, CEO de Epoch AI.

Dichas pruebas miden la capacidad de generalización y razonamiento abstracto con puzzles visuales, y sin duda son parte interesante de ese esfuerzo por valorar hasta dónde hemos llegado en cada momento con los modelos de IA.

Otra de las pruebas más llamativas de los últimos tiempos es FrontierMath. Este benchmark creado por la empresa EpochAI consiste en unos 300 problemas matemáticos de distinto nivel.

Han sido diseñados por un equipo de más de 60 matemáticos entre los cuales está Terence Tao, ganador de la medalla Fields. Aunque hay algunos problemas más asequibles, el 25% de ellos están calificados como especialmente complejos. De hecho, solo los mejores expertos podrían resolverlos, y tardarían incluso días en hacerlo.

En Xataka

Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude

Este conjunto de pruebas es además especial por otro aspecto: se trata de problemas no publicados y que por tanto no han sido parte de los conjuntos de entrenamiento de ningún modelo de IA. Para resolverlos las máquinas necesitan desde luego ser capaces de mostrar una "inteligencia matemática" especial. Una que ayuda precisamente a algo cada vez más difícil: valorar la evolución de estos modelos.

En Xataka hemos podido hablar con Jaime Sevilla (@Jsevillamol), que precisamente es el CEO de EpochAI y tiene una visión muy clara y personal sobre cómo deben ser las pruebas para medir la capacidad de un modelo de IA.

Para empezar, señala, "necesitas tener una manera de medir como esta avanzando la IA. Interactuar con ella te puede dar perspectiva, pero no tienes una impresion rigurosa de hasta donde va a llegar y en qué dominios es mas experta".

Eso, explica, hace necesario tener baterías de pruebas estandarizadas que permitan que nos formemos una idea de sus competencias. Para este experto el benchmark ARC-AGI es mas representativo de esa otra visión, hacer un benchmark fácil para los humanos pero difícil para la IA.

Los modelos van mejorando en ARC-AGI, pero para él eso era algo obvio y que tenía que pasar. Con el suyo las pruebas son difíciles para unos y otros, y que los modelos avancen y sean cada vez mejores a la hora de resolver dichos problemas no es tan obvio.

Así, con FrontierMath quisieron "intentar medir si la IA puede resolver problemas genuinamente difíciles". Hasta ahora los problemas matemáicos a los que se sometía a los modelos de IA eran relativamente fáciles, así que los modelos "saturaban los benchmarks", es decir, pronto lograban superar todas esas pruebas y lograr un 100% de puntuación. "Va a ser un reto para la IA saturar este benchmark", destacaba.

Aquí ponía un ejemplo con el modelo o3-mini de OpenAI, que resuelve ya un 10% de FrontierMath. No es mucho, pero es brutal, asegura, y ya ha superado a matemáticos expertos como él mismo. Sin embargo, asegura,

"Que la IA supere ciertos benchmarks no significa que pueda operar como un experto humano. Hay que ajustarlos porque están ajustados a escenarios muy concretos. Estamos midiendo esos limites de esa ia, y eso va a ser un proceso continuo".

Para Sevilla hay un área especialmente importante en la que medir ese rendimiento: en el comportamiento agéntico de la IA. En su capacidad de hacer trabajo remotamente y de forma autónoma. Aquí los ejemplos más claros de sistemas que logran esto son Computer Use, de Anthropic, y Operator, de OpenAI.

En Xataka

"Teléfono, resuélveme la vida": el agente IA de Anthropic quiere que la IA cambie nuestras vidas de verdad

Aquí existe un benchmark especialmente destacable que es OSWorld. Trata de medir si efectivamente estos agentes de IA pueden resolver tareas, aunque "de momento es muy básico", asegura Sevilla. Eso no importa, porque como señala, es la evolución habitual de estos desarrollos.

"El ciclo de benchmark al principio no resuelve nada" explica Sevilla. "Luego hay un punto en que empieza a hacer algo, y ahí entras en la parte lineal de la sigmoide, ahí ves mejoras relativamente predecibles, conforme los modelos escalan ves mejoras hasta que el benchmark se satura".

También le preguntamos por el debate sobre el escalado y si ahora mismo dedicar más dinero, más GPU y más datos a entrenar modelos de IA tiene sentido. En los últimos tiempos se habla de cómo los modelos de IA ya no avanzan tanto aparentemente, pero para él la estrategia de escalado sigue teniendo mucho sentido.

"No tenemos suficientes evidencias que demuestren que las tendencias de escalado estén muertas. Si entrenas con más cómputo vas a obtener mejores resultados".

"Siempre hemos asimilado que necesitamos dedicar muchísimos recursos para las mejoras", comentaba. Él y su equipo en Epoch AI han observado cómo la relación histórica entre recursos dedicados y mejora obtenida era "la que esperábamos", aunque sí que indica que esa mejora "tal vez ha sido un poco decepcionante en modelos sin razonamiento", donde el avance no ha sido tan claro.

Si embargo, destaca, "Alphago ya usaba más tiempo de inferencia, se veía que el razoiamiento funciona". En su opinión "no tenemos suficientes evidencias que demuestren que las tendencias de escalado estén muertas. Si entrenas con más cómputo vas a obtener mejores resultados", concluye.

"La IA no piensa como nosotros"

Si hay una cosa clara para este experto es que "es evidente que la IA no piensa como nosotros. Nos da mil vueltas en conocimientos de medicina o biología, por ejemplo, y está logrando avances notables en ámbitos como matemáticas o programación". Sin embargo, explica, "no es tan bueno en jugar a Pokémon, por ejemplo".

El rendimiento de la IA en problemas matemáticos avanzados sigue siendo bajo: o3-mini, el que mejor lo hace, solo resuelve el 11% de esos problemas. Fuente: Epoch AI.

Para Sevilla "lo que yo veo es que va avanzando en otras cosas. La comparativa con la inteligencia humana no es exacta porque los campos en los que la IA mejorará son campos en los que el ser humano no ha evolucionado. Creo que la IA mejorará mucho más rápido en matemáticas o ingenería que en robótica o control motriz, por ejemplo".

Sevilla citaba un estudio reciente de Metr en el que se intentaba medir la capacidad de la IA en términos de la longitud de las tareas que la IA podía completar. Sus conclusiones revelaban cómo hay una tendencia clara que señala que los modelos de IA están mejorando de forma previsible.

En esa gráfica del estudio de Metr se mide "la duración de las tareas (medida por el tiempo que tardan los profesionales humanos) que los agentes de IA pueden completar con un 50% de fiabilidad. Esa duración se ha duplicado aproximadamente cada 7 meses durante los últimos 6 años".

Y como señalan, "incluso si las mediciones absolutas se desvían en un factor de 10, la tendencia predice que en menos de una década veremos agentes de IA capaces de completar de forma independiente una gran parte de las tareas de software que actualmente llevan a los humanos días o semanas".

"La IA no solo regurgita lo que ha aprendido durante el entrenamiento, sino que los combina de forma novedosa".

Hay otro debate del que quisimos rescatar la opinión de Jaime Sevilla. Se trata de esa afirmación que también lleva tiempo discutiéndose: las IAs no generan nuevo conocimiento, solo combinan todos los datos con las que que han sido entrenadas para "regurgitar" sus respuestas.

Sevilla reía al hablar sobre esto y nos preguntaba "¿qué creéis que es la inteligencia?" Para él eso es también lo que hacemos los seres humanos. De hecho, asegura, FrontierMath precisamente demuestra que la IA "no solo regurgita lo que ha aprendido durante el entrenamiento, sino que los combina de forma novedosa".

Su conclusión era además muy optimista sobre el futuro de la IA. Al ritmo que está evolucionando y con los recursos que se están dedicando, su visión es clara: "entre gpt-2 y gpt-4 hay una diferencia de 10.000 veces más cómputo", y eso supuso una mejora de prestaciones extraordinaria entre ambos modelos.

Estamos siguiendo esa misma línea de recuros dedicados, así que según él "para final de la década estaremos viendo un salto similar" entre GPT-4 y lo que tengamos cuando acabe ese plazo". No habló específicamente de AGI, pero sí dejó claro que el avance va a ser igualmente espectacular. Y ahí estarán benchmarks como FrontierMath para mostrarnos ese salto.

En Xataka | Uno de los pioneros de la IA ha echado un vistazo a la IA generativa actual y ha llegado a una conclusión: es tontísima

El nuevo modelo de IA de Meta sacó muy buena puntuación en los benchmarks. Quizás demasiado buena

Javier Pastor — Tue, 08 Apr 2025 08:42:10 +0000

Llevábamos mucho tiempo esperando por la nueva familia Llama 4 de modelos de inteligencia artificial de Meta. El pasado fin de semana la empresa al fin desveló esos modelos y todo parecía prometedor. El problema es que la forma de anunciarlos está generando cierta polémica y una incómoda conversación: la de que quizás han hecho trampas en los benchmarks.

Llama 4 parece estupendo. Nada más aparecer en escena, los nuevos modelos Llama 4 Meta sorprendían por su excelente rendimiento en benchmarks. Se situaban en segundo lugar en el ranking LMArena, solo por debajo de Gemini 2.5 Pro Experimental. Sin embargo pronto aparecieron las suspicacias, porque la versión de Llama 4 que está disponible para todos los públicos no era la misma que se mostraba en ese ranking.

En Xataka

Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil

¿Versión trucada? Como indicaban en el anuncio de Meta, esa versión de Llama 4 era una "experimental" que obtuvo un ELO de 1.417 puntos en LMArena, mientras que Gemini 2.5 Pro Experimental había obtenido 1.439 puntos. Algunos expertos apuntaron a que esa versión experimental de Llama 4 era una versión que hacía trampas y había sido entrenada específicamente con conjuntos de datos utilizados en benchmarks para poder puntuar bien en ellas.

No hemos hecho trampas.Ahmad Al-Dahle es el máximo responsable de la división de IA generativa en Meta, y por tanto está al frente del lanzamiento de Llama 4. Este directivo ha negado de forma tajante los rumores que apuntan a que Meta habría hecho trampas para obtener mejor puntuaciones en los benchmarks. Dichos rumores "son falsos y nunca haríamos eso", ha destacado.

Pero sí estaba "optimizada". Como indican en TechCrunch, en ese anuncio oficial Meta sí apuntaba a que el modelo experimental de Llama 4 que había puntuado muy bien estaba "optimizado para la conversación". En LMArena indicaron que Meta debería haber explicado mejor qué tipo de modelo había enviado para incluir en el ranking.

Igual Llama 4 no es tan bueno. Algunos expertos que analizaron el rendimiento de Llama 4 con pruebas sintéticas o de forma convencional ya avisaron de que el rendimiento no parecía ser tan bueno como afirman en Meta. El modelo disponible públicamente mostraba un comportamiento que no se ajustaba a la calidad que apuntaba su puntuación en LMArena.

No del todo consistente. El propio Al-Dahle confirmaba que algunos usuarios estaban viendo resultados de "calidad distinta" de Maverick y Scout, las dos versiones de Llama 4 disponibles, dependiendo del proveedor. "Esperamos que se tarde algunos días en que las implementaciones públicas se ajusten", y añadió que seguirían trabajando para corregir posibles errores.

Un lanzamiento raro. Que Meta lanzara este modelo un sábado es extraño, pero al ser preguntado por ello Mark Zuckerberg respondió que "es cuando estuvo listo". Que además el modelo usado en LMArena no sea el mismo que la gente puede usar es también preocupante, y puede que comience a hacernos desconfiar de los benchmarks y de las empresas que los usan para promocionar sus productos. No es la primera vez que esto pasa ni mucho menos, y no será la última.

En Xataka | OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así

Si la pregunta es si la IA es ya tan buena como la inteligencia humana, la respuesta es: resuelve este puzzle

Javier Pastor — Wed, 26 Mar 2025 08:30:00 +0000

La Arc Prize Foundation, una organización sin ánimo de lucro cofundada por el investigador en IA Francçois Chollet, ha anunciado el lanzamiento de ARC-AGI-2, un nuevo conjunto de pruebas que quieren servir para evaluar la capacidad de los modelos de IA de una forma singular. Y ahí está lo llamativo de estas pruebas.

Cómo de cerca estamos de la AGI. Mientras que otros benchmarks miden lo bien que las IAs resuelven problemas matemáticos o de programación, las pruebas diseñadas por Chollet y su equipo tratan de evaluar cómo de cerca estamos de una Inteligencia Artificial General (AGI). Y para ello hacen uso de pruebas que tratan de medir la capacidad de percepción de esos modelos, porque precisamente en ese ámbito es donde entra en juego una "vieja" paradoja.

Con ARC-AGI-2 los modelos que antes lograban resolver gran parte de los problemas ahora se atascan, y la métrica de la eficiencia (coste) es una de las claves.

La paradoja de Moravec. En 1988 el ingeniero austríaco Hans Moravec enunció la que se convertiría en la paradoja que lleva su nombre. La inteligencia artificial es capaz de hacer fácil lo difícil, pero también hace difícil lo que para los humanos es fácil. Eso se demuestra en la actualidad con una prueba muy sencilla: pon a un modelo de IA generativa como ChatGPT, Claude, DeepSeek o Gemini a contar erres y lo pasará fatal.

¿Qué mide ARC-AGI? La idea tras las pruebas ARC-AGI es la de medir la capacidad de los sistemas de IA para generalizar, aprender y adaptarse a problemas completamente nuevos y de los que no se conoce la respuesta. Hay mucho enfoque en la capacidad de razonamiento abstracto con puzzles visuales en los que la IA debe observar patrones en cuadrículas de colores y generar soluciones basadas en esos patrones. Además estas pruebas permiten saber si la IA puede resolver problemas para los que no ha sido entrenada, y también si puede generalizar extrayendo reglas subyacentes a partir de ejemplos simples para luego aplicarlas a nuevas situaciones.

En Xataka

Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude

No vale memorizarlo todo. En otros tipos de benchmarks la IA tiene la ventaja de que "se sabe todo el temario de memoria", y solo necesita aplicar lo que sabe dando respuestas que incluso puede llegar a tener memorizadas. El objetivo aquí es razonar y extrapolar como lo haría un humano, y de ahí ese foco en evaluar si estamos cerca de una AGI porque si lo estamos será capaz de razonar como nosotros. Eso sí: que una IA supere esta prueba no significa necesariamente que haya alcanzado la AGI.

Este es uno de los puzzles visuales que deben resolver los modelos de IA, pero para esos modelos el problema es complejísimo. Para los humanos, no tanto. Intentadlo ;)

ARC-AGI-1 sirvió durante un tiempo. Los modelos de IA de principios de 2024 se estrellaban con la primera versión de ARC-AGI, pero a finales de año aparecieron modelos de razonamiento y la cosa se puso interesante. El modelo o1-mini de OpenAI lograba superar el 7,80% de las pruebas, pero o3-low logró el 76% y o3-high, aun siendo carísimo, demostró llegar al 87,5%. Las máquinas estaban a punto de pasar de nivel, y hacía falta una revisión de las pruebas.

ARC-AGI-2 pone las cosas mucho más difíciles para la IA. Las nuevas pruebas consisten también en problemas similares a puzzles visuales que hacen que las IAs tengan que identificar patrones visuales. Los modelos de razonamiento como o1-pro y DeepSeek R1 apenas superan el 1,3% de ARC-AGI-2, y los modelos no-razonadores (GPT-4.5, Claude 3.7, Gemini 2.0 Flash) no pasan del 1%. Y o3-low, que en la primera versión de ARC-AGI lograba casi un 76% de las respuestas, apenas llega al 4% en ARC-AGI-2 y lograrlo cuesta 200 dólares por tarea. Lo curioso es que de media los seres humanos logran acertar el 60% de las preguntas, mucho más que cualquiera de los modelos actuales. Podéis "jugar" a intentar resolver esas pruebas en el sitio web del proyecto. Os aseguramos que son puzzles singulares y que desde luego os harán pensar un poco.

En Xataka

Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil

De fuerza bruta, nada. En el anuncio los responsables de este benchmark explican que los modelos no pueden ahora recurrir a la fuerza bruta para encontrar soluciones, algo que era un pequeño problema en ARC-AGI-1. Para evitarlo se introduce la nueva métrica de eficiencia, que requiere que los modelos interpreten lo que ven en tiempo real, que "perciban", no que respondan en base a la memorización.

Los modelos de IA deben esforzarse más. Mike Knoop, uno de los responsables del desarrollo de estas pruebas, explicaba cómo ARC-AGI-2 es "el único benchmark que sigue sin haber sido superado por los modelos de IA pero que sigue siendo fácil para los humanos". En las nuevas pruebas se ve según él cómo los modelos de IA no asignan la semánica a estos puzzles —algo que los humanos hacemos de forma intuitiva— y lo pasan mal si tienen que aplicar simultáneamente varias reglas para resolver el problema.

Pros y contras de ARC-AGI. Estas pruebas son desde luego un enfoque singular que permite tratar de evaluar un aspecto de los actuales modelos de IA que otras pruebas no miden, pero hay un peligro aquí: que quienes desarrollan estos modelos los "truquen" o personalicen para enfocarlos a resolver precisamente este tipo de puzzles visuales aunque luego en otros tipos de generalización los modelos fracasen. Aun así representan una forma llamativa de influir en el desarrollo de nuevos modelos de IA, y una que además es interesante. Basta de IAs sabelotodo: lo que queremos son IAs que razonen como lo hacemos los seres humanos y se adapten a situaciones y problemas completamente nuevos.

Necesitamos IAs que pregunten cosas que nadie había preguntado. La conversación sobre la IA en los últimos tiempos plantea un dilema: las IAs tienen todas las respuestas para problemas sencillos, pero no se preguntan cosas que nadie había pensado. Los críticos de los actuales modelos destacan cómo las IAs no generan nuevo conocimiento —no descubren nuevos medicamentos, nuevos materiales o la solución para la fusión nuclear— sino que se limitan a combinar lo que ya sabemos para tratar de abrir nuevos caminos. Eso puede ayudar a los investigadores humanos, pero no es ni mucho menos lo que se espera de la gran revolución de la IA.

Imagen | Joshua Hoehne

En Xataka | El Gobierno de España quiere que todo el contenido IA lleve una "etiqueta". Suena muy bien, pero es un reto tremendo

El fundador de uno de los benchmarks de IA más prestigiosos del mundo tiene una nueva startup. Y un objetivo en mente: la IAG

Javier Pastor — Thu, 16 Jan 2025 16:01:31 +0000

No falla. Si algún experto en IA comienza a ganar cierta popularidad, decide montárselo por su cuenta. Ocurrió con Ilya Sutskever o con Mira Murati, ambos exdirectivos de OpenAI, y ahora ha ocurrido con otro experto de IA que estaba ganando más y más fama.

François Chollet. Este investigador es muy conocido por crear en 2019 el benchmark ARC-AGI, un conjunto de pruebas que ponen al límite las capacidades de los modelos de IA más avanzados. De hecho la idea es tratar de establecer si una IA puede acabar siendo considerado como una inteligencia artificial general, algo que debería hacer cualquier modelo que supere estas pruebas. Este investigador anunció en noviembre que dejaba Google tras una década trabajando allí y donde desarrolló Keras, una API Open Source para crear modelos de IA.

En Xataka

Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil

Una nueva aventura llamada Ndea. Chollet de hecho lanzó una ONG junto a Mike Knoop —cofundador de Zapier— llamada The ARC Prize bajo la cual se gestiona y desarrolla ese benchmark. Sin embargo ahora ambos acaban de anunciar el lanzamiento de Ndea, con la cual quieren "desarrollar y operacionalizar" una AGI, como señalan en TechCrunch.

Quién es Mike Knoop. El otro cofundador de Ndea, Mike Knoop, fue uno de los responsables de Zapier en 2011. Esta empresa se ha convertido en una de los referentes a la hora de proporcionar automatizaciones para aplicaciones web. También se ha unido a Chollet previamente en la fundación de ARC Prize Foundation, para financiar el desarrollo del benchmark. Knoop ha dejado su trabajo en Zapier —aunque se mantendrá en el consejo de administración— para centrarse totalmente en Ndea.

Persiguiendo el santo grial de la AGI. El objetivo de Ndea es el mismo que persiguen el resto de grandes tecnológicas y startups de IA. Lo hacen OpenAI, Microsoft o Meta, pero también startups como las creadas por Sutskever, Murati o ahora Chollet y Knoop. Cada una parece plantear su propia estrategia —también Chollet—, pero lo cierto es que un objetivo perfecto. Muy aspiracional —lo que atrae expectación e inversión— pero que las empresas, por mucho que lo digan, no pueden asegurar que acabarán alcanzándolo.

Su estrategia. "Creemos que tenemos una posibilidad pequeña pero real de lograr un descubrimiento revolucionaro creando una IA que puede aprender al menos de forma tan eficiente como la gente, y que puede mantener esa mejora a lo largo del tiempo sin cuellos de botella a la vista", explicaba Chollet. Para ello usarán una técnica llamada síntesis de programas, con la que la IA puede generalizar problemas desconocidos para ella.

Financiación desconocida. No hay datos ni se ha desvelado si la startup ha recibido ya algún apoyo financiero por parte de inversores. Lo que sí ha dejado claro Chollet es que están buscando talento en este ámbito para reforzar el equipo de desarrollo, algo que apoya la teoría de que cuentan con algún tipo de respaldo económico.

En Xataka | o3 puntúa tan alto como programadores humanos en un de razonamiento y abstracción. Es justo lo que OpenAI necesita