<rss version="2.0"
     xmlns:atom="http://www.w3.org/2005/Atom"
     xmlns:dc="http://purl.org/dc/elements/1.1/">
        <channel>
        <title>Magazine - benchmarks</title>
        <link>https://www.xataka.com</link>
        <description>Publicación de noticias sobre gadgets y tecnología. Últimas tecnologías en electrónica de consumo y novedades tecnológicas en móviles, tablets, informática, etc</description>
        <pubDate>Tue, 09 Jun 2026 12:15:02 +0000</pubDate>
        <generator>https://www.xataka.com</generator>
        <atom:link href="https://www.xataka.com/tag/benchmarks/rss2.xml" rel="self" type="application/rss+xml" />
                                        <item>
                <title><![CDATA[En 2025 la IA parecía haberse topado contra un muro de progreso. Un muro volatilizado en febrero de 2026]]></title>
                <link>https://www.xataka.com/robotica-e-ia/2025-ia-parecia-haberse-topado-muro-progreso-muro-volatilizado-febrero-2026</link>
                <guid>https://www.xataka.com/robotica-e-ia/2025-ia-parecia-haberse-topado-muro-progreso-muro-volatilizado-febrero-2026</guid>
                <pubDate>Tue, 17 Feb 2026 13:30:00 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/6a4a57/coding1/1024_2000.jpeg" alt="En&#x20;2025&#x20;la&#x20;IA&#x20;parec&#x00ED;a&#x20;haberse&#x20;topado&#x20;contra&#x20;un&#x20;muro&#x20;de&#x20;progreso.&#x20;Un&#x20;muro&#x20;volatilizado&#x20;en&#x20;febrero&#x20;de&#x20;2026">
    </p>
    <p>Recuerdo con cariño <a class="text-outboundlink" href="https://www.xataka.com/componentes/primero-llego-guerra-ghz-despues-numero-nucleos-ahora-rendimiento-vatio-que-actual-dura-todas" data-vars-post-title="Primero llegó la guerra del gHz, después la del número de núcleos, y ahora la del rendimiento por vatio: por qué la actual es la más dura de todas" data-vars-post-url="https://www.xataka.com/componentes/primero-llego-guerra-ghz-despues-numero-nucleos-ahora-rendimiento-vatio-que-actual-dura-todas" >aquella época</a> en la que Intel y AMD se peleaban por lograr crear la primera CPU capaz de llegar a 1 GHz de frecuencia de reloj. Aquella carrera <a rel="noopener, noreferrer" href="https://www.zdnet.com/article/its-official-amd-hits-1000mhz-first-5000096067/" >la ganó (¡sorpresa!) AMD</a>, pero hasta que se produjo aquel hito el ritmo era vertiginoso. O eso nos parecía, porque con la IA <strong>el ritmo de lanzamientos está absolutamente desbocado</strong>.&nbsp;</p>
<!-- BREAK 1 --><p>Vaya semanitas llevamos, queridos lectores. Veamos:&nbsp;</p>
<ul><li>27 de enero: Kimi.ai <a rel="noopener, noreferrer" href="https://x.com/Kimi_Moonshot/status/2016024049869324599" >lanza</a> Kimi J2.5</li><li>5 de febrero: Anthropic <a rel="noopener, noreferrer" href="https://www.anthropic.com/news/claude-opus-4-6" >lanza</a> Claude Opus 4.6</li><li>5 de febrero: El mismo día OpenAI <a rel="noopener, noreferrer" href="https://x.com/claudeai/status/2019467374420722022/photo/1" >lanza</a> GPT-5.3-Codex</li><li>5 de febrero: Kuaishou <a rel="noopener, noreferrer" href="https://ir.kuaishou.com/news-releases/news-release-details/kling-ai-launches-30-model-ushering-era-where-everyone-can-be" >lanza</a> Kling 3.0</li><li>12 de febrero: Z.ai <a rel="noopener, noreferrer" href="https://z.ai/blog/glm-5" >lanza</a> GLM-5</li><li>12 de febrero: ByteDance <a rel="noopener, noreferrer" href="https://x.com/Alibaba_Qwen/status/2023331062433153103" >lanza</a> Seedance 2.0</li><li>12 de febrero: MiniMax <a rel="noopener, noreferrer" href="https://www.minimax.io/news/minimax-m25" >lanza</a> MiniMax 2.5</li><li>16 de febrero: Alibaba <a rel="noopener, noreferrer" href="https://x.com/Alibaba_Qwen/status/2023331062433153103" >lanza</a> Qwen3.5-397B-A17B</li><li>Próximamente: DeepSeek v4, ¿Llama?, Gemini 3.1, ...</li></ul><p>El ritmo es absolutamente frenético, y los LLMs que hace unos <s>meses</s> semanas parecían ser fantásticos ahora ya no lo son tanto. Las nuevas versiones de esos modelso de lenguaje no paran de evolucionar, y las empresas de IA siguen ofreciendo novedades de forma constante. Casi mareante.&nbsp;</p>
<p>Eso, por supuesto, tiene su lado bueno y su lado malo. <strong>Terminamos 2025 con cierto hastío</strong> ante una IA que prometía mucho pero no acabó de cambiar apenas nada. Solo a finales de año se vio una revolución palpable con esa combinación espectacular que formaban Claude Code y <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/anthropic-presenta-claude-opus-4-5-seguramente-mejor-modelo-para-programar-sigue-teniendo-gran-problema" data-vars-post-title="Anthropic presenta Claude Opus 4.5: seguramente es el mejor modelo para programar, pero sigue teniendo un gran problema " data-vars-post-url="https://www.xataka.com/robotica-e-ia/anthropic-presenta-claude-opus-4-5-seguramente-mejor-modelo-para-programar-sigue-teniendo-gran-problema" >Opus 4.5</a>.&nbsp;</p>
<!-- BREAK 2 --><div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/empresas-tech-no-quieren-recien-graduados-porque-creen-que-ia-va-a-aniquilar-ibm-esta-contratandolos-parar" class="pivot-outboundlink" data-vars-post-title="Mientras las tecnológicas prescinden de juniors para sustituirlos por IA, IBM está haciendo lo contrario: pescar gangas">
     <img alt="Mientras&#x20;las&#x20;tecnol&#x00F3;gicas&#x20;prescinden&#x20;de&#x20;juniors&#x20;para&#x20;sustituirlos&#x20;por&#x20;IA,&#x20;IBM&#x20;est&#x00E1;&#x20;haciendo&#x20;lo&#x20;contrario&#x3A;&#x20;pescar&#x20;gangas" width="375" height="142" src="https://i.blogs.es/64ed7e/ballmer1/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/empresas-tech-no-quieren-recien-graduados-porque-creen-que-ia-va-a-aniquilar-ibm-esta-contratandolos-parar" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Mientras las tecnológicas prescinden de juniors para sustituirlos por IA, IBM está haciendo lo contrario: pescar gangas">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/empresas-tech-no-quieren-recien-graduados-porque-creen-que-ia-va-a-aniquilar-ibm-esta-contratandolos-parar" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Mientras las tecnológicas prescinden de juniors para sustituirlos por IA, IBM está haciendo lo contrario: pescar gangas">Mientras las tecnológicas prescinden de juniors para sustituirlos por IA, IBM está haciendo lo contrario: pescar gangas</a>
   </div>
  </div>
 </div>
</div>
<p>El binomio de Anthropic maravillaba a los desarrolladores, que por primera vez parecían estar de acuerdo a la hora de declarar que con este tipo de plataforma podían pedirle a la IA lo que uno quisiera, que ella te lo programaba del tirón y casi siempre sin problemas. Por supuesto en ese discurso había algo de exageración, pero ciertamente la capacidad de Opus 4.5 y el grado de autonomía y <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/claude-code-esta-siendo-gran-favorito-programadores-que-firma-4-todo-que-se-sube-a-github" data-vars-post-title="Claude Code está siendo el gran favorito entre los programadores. Tanto que ya firma el 4% de todo lo que se sube a GitHub " data-vars-post-url="https://www.xataka.com/robotica-e-ia/claude-code-esta-siendo-gran-favorito-programadores-que-firma-4-todo-que-se-sube-a-github" >versatilidad de Claude Code</a> parecieron marcar un punto de inflexión.</p>
<!-- BREAK 3 --><p>Luego llegó OpenClaw y eso <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/openclaw-agente-ia-total-que-desafiaba-a-big-tech-respuesta-big-tech-comprarlo-como-no" data-vars-post-title="OpenClaw representaba un torpedo a la línea de flotación de las Big Tech. Así que OpenAI lo ha comprado" data-vars-post-url="https://www.xataka.com/robotica-e-ia/openclaw-agente-ia-total-que-desafiaba-a-big-tech-respuesta-big-tech-comprarlo-como-no" >ha vuelto a disparar las expectativas por los agentes de IA</a>, pero en paralelo estamos viendo una auténtica fiebre de lanzamientos de nuevos modelos de IA generativa, tanto en vídeo (Kling 3.0 y sobre todo Seedance 2.0 <a class="text-outboundlink" href="https://www.xataka.com/aplicaciones/doraemon-jamas-podria-vencer-a-goku-que-china-invento-seedance-2-0" data-vars-post-title="La generación de vídeo IA acaba de alcanzar su cima y es gracias un modelo hecho en China: Seedance 2.0" data-vars-post-url="https://www.xataka.com/aplicaciones/doraemon-jamas-podria-vencer-a-goku-que-china-invento-seedance-2-0" >han sido fenómenos virales en si mismos</a>) como en texto/código. Y con cada nuevo modelo, la promesa de que el rendimiento <strong>va superando</strong> a la generación anterior. Al menos, claro, en los benchmarks.</p>
<!-- BREAK 4 --><div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="" height=1286 width=1687 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/4a9f3f/tablas/450_1000.jpeg 450w, https://i.blogs.es/4a9f3f/tablas/650_1200.jpeg 681w,https://i.blogs.es/4a9f3f/tablas/1024_2000.jpeg 1024w, https://i.blogs.es/4a9f3f/tablas/1366_2000.jpeg 1366w" src="https://i.blogs.es/4a9f3f/tablas/450_1000.jpeg" alt="Tablas">
   <img alt="Tablas" class="" src="https://i.blogs.es/4a9f3f/tablas/450_1000.jpeg">
   
        <span>A la izquierda, benchmarks internos de Alibaba para Qwen3.5. A la derecha, los de Anthropic para Opus 4.6. Cada uno se compara con quien considera oportuno.</span>
   </div>
   </div>
</div>
<p>Esos gráficos de barras de la imagen superior se han convertido en una constante, sobre todo cuando quien lanza el modelo es una empresa china. Si el que lanza es OpenAI, Google o Anthropic, lo que se prefiere son las tablas. Sea como fuere, el resultado siempre nos lleva a lo mismo: cada modelo es mejor que su predecesor y, normalmente, que muchos de la competencia.&nbsp;</p>
<!-- BREAK 5 --><h2>Fatiga de las suscripciones... de IA</h2><p>El problema de esto es que esa carrera no parece acabar nunca, y un modelo que parece fantástico hoy no lo es tanto mañana, cuando su competidor puede superarle por poco, pero además puede ser bastante más barato —los modelos chinos lo suelen ser— u ofrece otras ventajas como mayores ventanas de contexto para que podamos introducir textos más y más largos —por ejemplo, grandes repositorios de código— como parte del prompt.</p>
<div class="article-asset-video article-asset-normal">
 <div class="asset-content">
  <div class="base-asset-video">
   <div class="js-dailymotion">
    <script type="application/json">
                          {"videoId":"x97w1ei","autoplay":false,"title":"Claude   Computer use for automating operations", "tag":"Anthropic", "duration":"123"}
                  </script>
   </div>
  </div>
 </div>
</div>
<p>Y claro, eso plantea un problema para los usuarios. Si Opus 4.5 era tan bueno, uno podría apuntarse al plan Pro o al Max y pagar un año por adelantado, pero eso es a priori arriesgado, porque aunque tendrás acceso a nuevos modelos cuando los saques, habrás dedicado tu inversión en suscripciones de IA al modelo de Anthropic sin tener ya tanto margen para probar los de los rivales.</p>
<!-- BREAK 6 --><p>Aquí <strong>se imponen las suscripciones cortas</strong>: suscribirse a un modelo un mes para poder tener margen de maniobra por si quiero probar otro modelo al mes siguiente (o probar dos o tres modelos el mismo mes, que también es un caso común).&nbsp;</p>
<!-- BREAK 7 --><p>Los precios de las suscripciones a servicios de IA no son además facilitadores de esas pruebas múltiples. Lo normal es pagar 20 euros por una suscripción de un mes, y aunque los modelos chinos suelen ser bastante más baratos, también suelen estar un escalón por detrás en capacidad si uno necesita las máximas prestaciones.&nbsp;</p>
<!-- BREAK 8 --><p>Pero aquí se repite una y otra vez el problema: si me suscribo ahora a GPT-5.3-Codex, que todo el mundo dice que es fantástico, ¿cuánto tiempo lo pago, un mes? ¿O me suscribo además a GLM-5 para probar, y ya el mes que viene probaré Opus 4.6 y MiniMax 2.5?&nbsp;</p>
<!-- BREAK 9 --><div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/nuevo-agente-ia-anthropic-nos-ensena-futuro-uno-que-hablaremos-pc-nos-olvidaremos-raton" class="pivot-outboundlink" data-vars-post-title="&quot;Hola, computadora&quot;: el futuro que nos pinta la IA de Anthropic ahora es el mismo que planteaba Star Trek en 1986">
     <img alt="&quot;Hola,&#x20;computadora&quot;&#x3A;&#x20;el&#x20;futuro&#x20;que&#x20;nos&#x20;pinta&#x20;la&#x20;IA&#x20;de&#x20;Anthropic&#x20;ahora&#x20;es&#x20;el&#x20;mismo&#x20;que&#x20;planteaba&#x20;Star&#x20;Trek&#x20;en&#x20;1986" width="375" height="142" src="https://i.blogs.es/2eb931/star-trek/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/nuevo-agente-ia-anthropic-nos-ensena-futuro-uno-que-hablaremos-pc-nos-olvidaremos-raton" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="&quot;Hola, computadora&quot;: el futuro que nos pinta la IA de Anthropic ahora es el mismo que planteaba Star Trek en 1986">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/nuevo-agente-ia-anthropic-nos-ensena-futuro-uno-que-hablaremos-pc-nos-olvidaremos-raton" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="&quot;Hola, computadora&quot;: el futuro que nos pinta la IA de Anthropic ahora es el mismo que planteaba Star Trek en 1986">&quot;Hola, computadora&quot;: el futuro que nos pinta la IA de Anthropic ahora es el mismo que planteaba Star Trek en 1986</a>
   </div>
  </div>
 </div>
</div>
<p>Todas esas decisiones son difíciles porque la percepción de cada modelo depende de cada usuario. Cada uno de ellos tiene sus necesidades, su presupuesto y sus propias experiencias con cada modelo, así que por mucho que los benchmarks digan una cosa, <strong>con los modelos de IA nos está pasando como con los vinos</strong>: por mucho que nos digan que uno es mejor que otro, nosotros los percibimos de forma muy personal.&nbsp;</p>
<!-- BREAK 10 --><p>Y ese avance frenético hace que además se haya recuperado esa expectativa por modelos que realmente marcan la diferencia. El vibe coding no es perfecto, pero cada vez resuelve mejor nuestras necesidades, y lo mismo ocurre con los agentes de IA como OpenClaw, que con sus luces y sus sombras demuestran que ese futuro en el que tengamos un empleado de IA —aunque al principio pueda ser algo torpe— funcionando 24/7 no parece estar tan lejos.</p>
<!-- BREAK 11 --><p>Son tiempos vertiginosos y fascinantes para la IA. Otra vez.</p>
<p>Imagen | <a rel="noopener, noreferrer" href="https://unsplash.com/es/fotos/hombre-en-camisa-negra-de-manga-larga-usando-la-computadora-_Fx34KeqIEw" >Mohammad Rahmani</a></p>
<p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/china-llevo-robots-humanoides-al-mayor-espectaculo-televisivo-pais-hizo-practicar-kung-fu-precision-milimetrica" data-vars-post-title="China llevó robots humanoides al mayor espectáculo televisivo del país: los hizo practicar kung-fu con precisión milimétrica " data-vars-post-url="https://www.xataka.com/robotica-e-ia/china-llevo-robots-humanoides-al-mayor-espectaculo-televisivo-pais-hizo-practicar-kung-fu-precision-milimetrica" >China llevó robots humanoides al mayor espectáculo televisivo del país: los hizo practicar kung-fu con precisión milimétrica</a></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
                                <item>
                <title><![CDATA[Es hora de que empecemos a valorar a modelos como GPT 5.2 no en base a su rendimiento sino a otra cosa: si son baratos]]></title>
                <link>https://www.xataka.com/robotica-e-ia/gran-pregunta-que-afronta-gpt-5-2-no-mejor-peor-que-sus-antecesores-sale-barato</link>
                <guid>https://www.xataka.com/robotica-e-ia/gran-pregunta-que-afronta-gpt-5-2-no-mejor-peor-que-sus-antecesores-sale-barato</guid>
                <pubDate>Sun, 14 Dec 2025 10:30:00 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/d8354b/openai1-copia-2/1024_2000.jpeg" alt="Es&#x20;hora&#x20;de&#x20;que&#x20;empecemos&#x20;a&#x20;valorar&#x20;a&#x20;modelos&#x20;como&#x20;GPT&#x20;5.2&#x20;no&#x20;en&#x20;base&#x20;a&#x20;su&#x20;rendimiento&#x20;sino&#x20;a&#x20;otra&#x20;cosa&#x3A;&#x20;si&#x20;son&#x20;baratos">
    </p>
    <p>En 2019 a un <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/fundador-uno-benchmarks-ia-prestigiosos-mundo-tiene-nueva-startup-objetivo-mente-iag" data-vars-post-title="El fundador de uno de los benchmarks de IA más prestigiosos del mundo tiene una nueva startup. Y un objetivo en mente: la IAG " data-vars-post-url="https://www.xataka.com/robotica-e-ia/fundador-uno-benchmarks-ia-prestigiosos-mundo-tiene-nueva-startup-objetivo-mente-iag" >joven investigador</a> llamado François Chollet <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" data-vars-post-title="Si la pregunta es si la IA es ya tan buena como la inteligencia humana, la respuesta es: resuelve este puzzle" data-vars-post-url="https://www.xataka.com/robotica-e-ia/arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" >se le ocurrió crear un benchmark para IA</a>. La idea era como poco rarita, porque en 2019 no había prácticamente nada con lo que probar ese benchmark. <strong>En realidad Chollet se adelantó al futuro</strong>, porque aun faltaban tres años para que apareciera ChatGPT y se iniciara la fiebre por la IA.&nbsp;</p>
<!-- BREAK 1 --><p>Luego llegarían más y más benchmarks sintéticos para medir el rendimiento de las IAs, pero ARC-AGI era un benchmark distinto. Mientras que en muchos otros benchmarks la capacidad de memorización del modelo es crucial, aquí se ponía a prueba la capacidad de pensamiento abstracto y generalización de la IA.</p>
<!-- BREAK 2 --><div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">
     <img alt="Las&#x20;IA&#x20;se&#x20;est&#x00E1;n&#x20;volviendo&#x20;muy&#x20;listas.&#x20;Y&#x20;crear&#x20;pruebas&#x20;para&#x20;ponerlas&#x20;en&#x20;aprietos&#x20;est&#x00E1;&#x20;siendo&#x20;cada&#x20;vez&#x20;m&#x00E1;s&#x20;dif&#x00ED;cil&#x20;" width="375" height="142" src="https://i.blogs.es/3519a3/robot-examen/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil </a>
   </div>
  </div>
 </div>
</div>
<p>Los problemas propuestos en ARC-AGI y su sucesor, ARC-AGI 2, constan en gran medida de puzzles visuales que son relativamente fáciles de resolver por los seres humanos, pero que hasta ahora <a class="text-outboundlink" href="https://www.xataka.com/inteligencia-artificial/paradoja-moravec-que-inteligencia-artificial-hace-facil-dificil-viceversa" data-vars-post-title="La paradoja de Moravec: por qué la inteligencia artificial hace fácil lo difícil (y viceversa)" data-vars-post-url="https://www.xataka.com/inteligencia-artificial/paradoja-moravec-que-inteligencia-artificial-hace-facil-dificil-viceversa" >eran casi imposibles para las máquinas</a>. En los últimos dos años hemos ido viendo no obstante cómo los modelos de IA iban mejorando en comprensión abstracta y generalización, y poco a poco resolvieron más y más puzzles de ARC-AGI. ¿El problema?</p>
<!-- BREAK 3 --><p>Gastaban un dineral para hacerlo.&nbsp;</p>
<p>Y ahí es donde entra GPT-5.2.</p>
<h2>La IA puede resolver casi todo. La pregunta es cuánto cuesta hacerlo</h2><p>El año pasado o3-preview logró resolver el 87% de ARC-AGI 1. El hito fue tan llamativo que hasta los propios responsables del benchmark <a rel="noopener, noreferrer" href="https://arcprize.org/blog/oai-o3-pub-breakthrough" >publicaron un anuncio al respecto</a>. Para lograrlo, eso sí, o3-preview ejecutó 100 tareas con un coste total de 456.000 dólares: <strong>cada una costó 4.560 dólares</strong>.&nbsp;</p>
<div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="" height=1154 width=1956 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/1b0f6a/arc-prize-leaderboard/450_1000.png 450w, https://i.blogs.es/1b0f6a/arc-prize-leaderboard/650_1200.png 681w,https://i.blogs.es/1b0f6a/arc-prize-leaderboard/1024_2000.png 1024w, https://i.blogs.es/1b0f6a/arc-prize-leaderboard/1366_2000.png 1366w" src="https://i.blogs.es/1b0f6a/arc-prize-leaderboard/450_1000.png" alt="Arc Prize Leaderboard">
   <img alt="Arc Prize Leaderboard" class="" src="https://i.blogs.es/1b0f6a/arc-prize-leaderboard/450_1000.png">
   
        <span>Fuente: ARC-AGI Prize</span>
   </div>
   </div>
</div>
<p>Ayer se publicó GPT-5.2, la última versión del modelo fundacional de IA de OpenAI. Su rendimiento en otros benchmarks era excepcional, pero lo que realmente llama la atención es cómo se comportó en ARC-AGI 1. No por lograr resolver un 90,5% de los problemas con GPT-5.2 Pro (X-High), no, sino por cuánto costó cada tarea.&nbsp;</p>
<!-- BREAK 4 --><p>La cifra: <strong>11,65 dólares por tarea</strong>. <a rel="noopener, noreferrer" href="https://openai.com/es-ES/index/introducing-gpt-5-2/" >390 veces menos</a> que hace un año.</p>
<p>De hecho una versión aún más barata, GPT-5.2 (X-High) logró un 86,2% con un coste de tan solo 0,96 dólares por tarea. Alucinante.</p>
<div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="" height=1154 width=1956 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/f2410c/arc-agi-2prize-leaderboard/450_1000.png 450w, https://i.blogs.es/f2410c/arc-agi-2prize-leaderboard/650_1200.png 681w,https://i.blogs.es/f2410c/arc-agi-2prize-leaderboard/1024_2000.png 1024w, https://i.blogs.es/f2410c/arc-agi-2prize-leaderboard/1366_2000.png 1366w" src="https://i.blogs.es/f2410c/arc-agi-2prize-leaderboard/450_1000.png" alt="Arc Agi 2prize Leaderboard">
   <img alt="Arc Agi 2prize Leaderboard" class="" src="https://i.blogs.es/f2410c/arc-agi-2prize-leaderboard/450_1000.png">
   
        <span>ARC-AGI 2 sigue siendo un desafío para la mayoría de modelos, pero GPT-5.2 ha dado otro salto de calidad excepcional. Fuente: ARC-AGI Prize.</span>
   </div>
   </div>
</div>
<p>Chollet y su equipo sabían que la IA acabaría superando su test ARC-AGI tarde o temprano, así que <a rel="noopener, noreferrer" href="https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025" >en marzo de 2025</a> publicaron ARC-AGI 2, la segunda versión de su benchmark, para ponérselo aún más difícil a las máquinas. Ese test es aún un verdadero desafío para la mayoría de modelos, que hasta ahora apenas habían resuelto un 38% de los problemas en el mejor de los casos (Claude Opus 4.5).&nbsp;</p>
<!-- BREAK 5 --><p>GPT-5.2 <a rel="noopener, noreferrer" href="https://x.com/arcprize/status/1999182732845547795" >ha logrado resolver</a> casi el 55%. Es un salto colosal.</p>
<p>Y de nuevo, con un coste realmente sorprendente de 15,72 dólares por tarea. La tendencia es clara: la IA no solo está volviéndose mejor, <strong>sino que es cada vez más barata</strong>.&nbsp;</p>
<!-- BREAK 6 --><p>Eso son buenas noticias para todos, porque equilibran esa ya clara percepción de que el escalado no funciona tanto como en el pasado. Los saltos en rendimiento no son tan llamativos —aunque estas pruebas con ARC-AGI desmontan ese argumento—, pero sí lo son los saltos en cuanto a coste.&nbsp;</p>
<!-- BREAK 7 --><div class="article-asset-video article-asset-normal">
 <div class="asset-content">
  <div class="base-asset-video">
   <div class="js-dailymotion">
    <script type="application/json">
                          {"videoId":"x9sgldi","autoplay":false,"title":"ChatGPT Atlas", "tag":"navegador de chatgpt", "duration":"98"}
                  </script>
   </div>
  </div>
 </div>
</div>
<p>La carrera de la IA parece haber alcanzado un punto de inflexión. La verdadera pregunta no es si la IA logrará resolver un problema, sino cuánto costará resolverlo. Y la evolución de GPT-5.2 parece demostrar claramente algo crucial: que la IA cada vez resuelve más cosas a menor precio.&nbsp;</p>
<!-- BREAK 8 --><p>Eso es además algo crítico para una OpenAI que <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/openai-va-a-tener-que-pagar-fortuna-obligaciones-crediticias-2026-no-esta-nada-claro-que-logre-pagarlas" data-vars-post-title="OpenAI tiene que pagar deudas de 400.000 millones de dólares en 2026. Nadie tiene ni la más remota idea de cómo va a pagarlos" data-vars-post-url="https://www.xataka.com/robotica-e-ia/openai-va-a-tener-que-pagar-fortuna-obligaciones-crediticias-2026-no-esta-nada-claro-que-logre-pagarlas" >está en una situación económica delicada</a>. Ahora que estamos más en una especie de meseta en cuanto a ganancias en rendimiento, <strong>lograr ser más baratos y eficientes es clave</strong> para el futuro de la empresa. Y parece que GPT-5.2, además de una respuesta a Gemini 3 Pro, es un paso claro en esa dirección.</p>
<!-- BREAK 9 --><p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/empresas-y-economia/hay-carrera-que-anthropic-le-va-a-ganar-partida-a-openai-ser-rentable" data-vars-post-title="OpenAI va por delante de Anthropic en todos los aspectos de la IA excepto en el más importante: sobrevivir" data-vars-post-url="https://www.xataka.com/empresas-y-economia/hay-carrera-que-anthropic-le-va-a-ganar-partida-a-openai-ser-rentable">Hay una carrera en la que Anthropic le está ganando la partida a OpenAI: en la de ser rentable</a></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
                                <item>
                <title><![CDATA[El problema no es que la IA no sea capaz de leer la hora. El problema es confirmar que no razona y solo repite lo que ha visto]]></title>
                <link>https://www.xataka.com/robotica-e-ia/cuando-nos-vendieron-inteligencia-artificial-generativa-no-sabiamos-que-iba-a-ser-artificial-generativa-no-inteligente</link>
                <guid>https://www.xataka.com/robotica-e-ia/cuando-nos-vendieron-inteligencia-artificial-generativa-no-sabiamos-que-iba-a-ser-artificial-generativa-no-inteligente</guid>
                <pubDate>Wed, 19 Nov 2025 08:00:00 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/7bd7f6/clock/1024_2000.jpeg" alt="El&#x20;problema&#x20;no&#x20;es&#x20;que&#x20;la&#x20;IA&#x20;no&#x20;sea&#x20;capaz&#x20;de&#x20;leer&#x20;la&#x20;hora.&#x20;El&#x20;problema&#x20;es&#x20;confirmar&#x20;que&#x20;no&#x20;razona&#x20;y&#x20;solo&#x20;repite&#x20;lo&#x20;que&#x20;ha&#x20;visto">
    </p>
    <p>Hace unos meses a un grupo de investigadores españoles se les ocurrió poner a prueba a un chatbot de IA con una prueba curiosa. Subieron al chatbot una imagen de un reloj analógico y le preguntaron a la IA un simple "¿Qué hora es en ese reloj?". La IA falló de forma inquietante.</p>
<!-- BREAK 1 --><p><strong>Máquina, ¿me dices la hora?</strong> Los investigadores de la Universidad Politécnica de Madrid, la Universidad de Valladolid y el Politecnico de Milano firmaron hace un mes <a rel="noopener, noreferrer" href="https://xplorestaging.ieee.org/stamp/stamp.jsp?tp=&arnumber=11205333" >un estudio</a> en el que <a rel="noopener, noreferrer" href="https://spectrum.ieee.org/large-language-models-reading-clocks" >quisieron evaluar</a> cómo de inteligente era la inteligencia artificial de esos modelos. Para ello construyeron un gran conjunto de imágenes sintéticas de relojes analógicos —disponibles <a rel="noopener, noreferrer" href="https://huggingface.co/datasets/migonsa/analog_clocks_combinations_for_finetuning" >en Hugging Face</a>— en los que se mostraban 43.000 horas distintas.&nbsp;</p>
<!-- BREAK 2 --><div class="article-asset-image article-asset-normal article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="centro_sinmarco" height=816 width=1572 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/87cb9f/captura-de-pantalla-2025-11-18-a-las-12.37.55/450_1000.jpeg 450w, https://i.blogs.es/87cb9f/captura-de-pantalla-2025-11-18-a-las-12.37.55/650_1200.jpeg 681w,https://i.blogs.es/87cb9f/captura-de-pantalla-2025-11-18-a-las-12.37.55/1024_2000.jpeg 1024w, https://i.blogs.es/87cb9f/captura-de-pantalla-2025-11-18-a-las-12.37.55/1366_2000.jpeg 1366w" src="https://i.blogs.es/87cb9f/captura-de-pantalla-2025-11-18-a-las-12.37.55/450_1000.jpeg" alt="Captura De Pantalla 2025 11 18 A Las 12 37 55">
   <img alt="Captura De Pantalla 2025 11 18 A Las 12 37 55" class="centro_sinmarco" src="https://i.blogs.es/87cb9f/captura-de-pantalla-2025-11-18-a-las-12.37.55/450_1000.jpeg">
   
        <span>Antes de afinar (fine-tuning) su comportamiento los modelos de IA fallaron de forma consistente al intentar decir la hora. Tras el ajuste el comportamiento fue mucho mejor, pero aun así imperfecto. Que no debería ocurrir con una cuestión tan "simple" para los humanos.</span>
   </div>
   </div>
</div>
<p><strong>Resultado desastroso</strong>. A partir de ahí fueron preguntando a cuatro modelos de IA generativa qué hora mostraban esas imágenes de esos relojes analógicos. Ninguno de ellos logró decir la hora de forma precisa. Ese grupo de modelos estaba compuesto por GPT-4o, Gemma3-12B, LlaMa3.2-11B y QwenVL-2.5-7B, y todos ellos tuvieron serios problemas para "leer" la hora y diferenciar por ejemplo las manecillas o el ángulo y dirección de esas manecillas en relación a los números marcados en el reloj.&nbsp;</p>
<!-- BREAK 3 --><p><strong>Ajuste fino para mejorar</strong>. Tras esas primeras pruebas, el grupo de investigadores logró mejorar de forma notable el comportamiento de esos modelos tras realizar un ajuste fino: los entrenaron con 5.000 imágenes adicionales de ese conjunto de datos y luego volvieron a evaluar el comportamiento de los modelos. Sin embargo los modelos volvieron a fallar de forma consistente cuando los probaron con un conjunto distinto de imágenes de relojes analógicos. La conclusión estaba clara.</p>
<div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/frente-a-ia-que-dice-a-todo-preocupacion-asi-jamas-lograremos-crear-einstein-newton" class="pivot-outboundlink" data-vars-post-title="Tenemos un problema filosófico con las IA generativas: nos están dando la razón en todo lo que les pedimos">
     <img alt="Tenemos&#x20;un&#x20;problema&#x20;filos&#x00F3;fico&#x20;con&#x20;las&#x20;IA&#x20;generativas&#x3A;&#x20;nos&#x20;est&#x00E1;n&#x20;dando&#x20;la&#x20;raz&#x00F3;n&#x20;en&#x20;todo&#x20;lo&#x20;que&#x20;les&#x20;pedimos" width="375" height="142" src="https://i.blogs.es/d4f5e4/robot-2/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/frente-a-ia-que-dice-a-todo-preocupacion-asi-jamas-lograremos-crear-einstein-newton" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Tenemos un problema filosófico con las IA generativas: nos están dando la razón en todo lo que les pedimos">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/frente-a-ia-que-dice-a-todo-preocupacion-asi-jamas-lograremos-crear-einstein-newton" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Tenemos un problema filosófico con las IA generativas: nos están dando la razón en todo lo que les pedimos">Tenemos un problema filosófico con las IA generativas: nos están dando la razón en todo lo que les pedimos</a>
   </div>
  </div>
 </div>
</div>
<p><strong>No saben generalizar</strong>. Lo que descubrieron con esta prueba fue la confirmación de lo que venimos observando desde el principio con los modelos de IA: son buenos reconociendo datos con los que están familiarizados (memorizados), pero a menudo fallan en escenarios a los que nunca se han enfrentado y que no forman parte de sus conjuntos de entrenamiento. O lo que es lo mismo: eran incapaces de generalizar.</p>
<!-- BREAK 4 --><p><strong>Dalí entra en escena</strong>. Para tratar de averiguar las causas de esos fallos los investigadores crearon nuevos conjuntos de imágenes en los que por ejemplo utilizaban los <a rel="noopener, noreferrer" href="https://es.wikipedia.org/wiki/La_persistencia_de_la_memoria" >célebres relojes distorsionados de Dalí</a>, o en los que incluían flechas al final de las manecillas. Los seres humanos son capaces de decir la hora en relojes analógicos aun estando distorsionados, pero para los modelos de IA aquello fue un problema enorme.&nbsp;</p>
<!-- BREAK 5 --><div class="article-asset-video article-asset-normal">
 <div class="asset-content">
  <div class="base-asset-video">
   <div class="js-dailymotion">
    <script type="application/json">
                          {"videoId":"x9n4gwc","autoplay":false,"title":"OpenAI ha presentado ChatGPT Agent", "tag":"ChatGPT", "duration":"47"}
                  </script>
   </div>
  </div>
 </div>
</div>
<p><strong>Si hacen esto con relojes, imagina con análisis médicos</strong>. El peligro de estas conclusiones es que vuelven a detonar el debate sobre si los modelos de IA generativa son ciertamente artificiales y generativos, pero no demasiado inteligentes. Si tienen estas dificultades para identificar las manecillas o sus orientaciones, la cosa es peligrosa si lo que tienen que analizar los modelos son imágenes médicas o, por ejemplo, imágenes en tiempo real de un coche autónomo circulando por una ciudad.&nbsp;</p>
<!-- BREAK 6 --><p><strong>Las IAs son tontísimas</strong>. Aunque es cierto que los modelos de IA generativa son fantásticos como ayuda en diversos escenarios como la programación, la realidad es que lo que hacen es "regurgitar" respuestas que ya forman parte de sus datos de entrenamiento.&nbsp;Como explicaba Thomas Wolf, Chief Science Officer de Hugging Face, una IA generativa "nunca va a preguntarse cosas que nadie había pensado o que nadie se había atrevido a preguntar". Aunque gracias a su descomunal memoria y entrenamiento pueden recuperar multitud de datos y presentarlos de formas útiles, que encuentren soluciones a problemas para los que no han sido entrenados es muy complicado. Para expertos como Yann LeCun la realidad es clara: la IA generativa <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/uno-pioneros-ia-ha-echado-vistazo-a-ia-generativa-actual-ha-llegado-a-conclusion-tontisima" data-vars-post-title="Uno de los pioneros de la IA ha echado un vistazo a la IA generativa actual y ha llegado a una conclusión: es tontísima" data-vars-post-url="https://www.xataka.com/robotica-e-ia/uno-pioneros-ia-ha-echado-vistazo-a-ia-generativa-actual-ha-llegado-a-conclusion-tontisima" >es tontísima</a> y, además, <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/padrino-ia-cree-que-llm-ia-callejon-salida-meta-ha-convertido-cientifico-florero" data-vars-post-title="El &quot;padrino de la IA&quot; cree que los LLM de IA son un callejón sin salida. Meta lo ha convertido en un científico florero " data-vars-post-url="https://www.xataka.com/robotica-e-ia/padrino-ia-cree-que-llm-ia-callejon-salida-meta-ha-convertido-cientifico-florero" >un callejón sin salida</a>.</p>
<div class="article-asset-image article-asset-normal article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="centro_sinmarco" height=2582 width=2468 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/0b9e20/captura-de-pantalla-2025-11-18-a-las-13.43.12/450_1000.jpeg 450w, https://i.blogs.es/0b9e20/captura-de-pantalla-2025-11-18-a-las-13.43.12/650_1200.jpeg 681w,https://i.blogs.es/0b9e20/captura-de-pantalla-2025-11-18-a-las-13.43.12/1024_2000.jpeg 1024w, https://i.blogs.es/0b9e20/captura-de-pantalla-2025-11-18-a-las-13.43.12/1366_2000.jpeg 1366w" src="https://i.blogs.es/0b9e20/captura-de-pantalla-2025-11-18-a-las-13.43.12/450_1000.jpeg" alt="Captura De Pantalla 2025 11 18 A Las 13 43 12">
   <img alt="Captura De Pantalla 2025 11 18 A Las 13 43 12" class="centro_sinmarco" src="https://i.blogs.es/0b9e20/captura-de-pantalla-2025-11-18-a-las-13.43.12/450_1000.jpeg">
   
        <span>Fuente: clocks.brianmoore.com</span>
   </div>
   </div>
</div>
<p><strong>La IA tampoco dibuja relojes muy bien</strong>. Al experimento de esos investigadores se le suma otra pequeña prueba que vuelve a poner en entredicho la capacidad de la IA generativa. Se trata de pedirles a distintos modelos que creen el código que permita mostrar un reloj analógico con la hora actual. Un diseñador llamado Brian Moore <a rel="noopener, noreferrer" href="https://clocks.brianmoore.com/" >ha querido compartir el resultado</a> de varios modelos de IA y lo cierto es que el resultado obtenido en la mayoría de ellos es terrible, aunque otros como Kimi K2 logran un buen resultado. Nosotros hemos probado con los recientes Grok 4.1 y GPT-5.1. Tras insistir un poco Grok 4.1 ha dibujado el reloj perfecto y funcionando. Con GPT-5.1 no ha habido forma, al menos en nuestras pruebas.&nbsp;</p>
<!-- BREAK 7 --><p><strong>Una realidad preocupante</strong>. Esa incapacidad de resolver tareas que parecen sencillas hace que desde luego estos modelos no queden en buen lugar. Es cierto que un buen prompt puede ayudar a resolver algunas de esas limitaciones, pero lo que cada vez resulta más evidente es que los modelos de IA siguen cometiendo errores a pesar del paso del tiempo. La teórica revolución de esta tecnología necesita precisamente erradicarlos, y no parece que estemos en vías de conseguirlo. Los modelos mejoran, sí, pero no lo suficiente para que podamos fiarnos de ellos al 100%.&nbsp;</p>
<!-- BREAK 8 --><p>Imagen | <a rel="noopener, noreferrer" href="https://unsplash.com/es/fotos/despertador-analogico-negro-entre-dos-troncos-de-arbol-2YWS62tLATA" >Yaniv Knobel</a></p>
<p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/empresas-y-economia/no-habia-suficientes-empresas-ia-jeff-bezos-acaba-volver-sombras-para-levantar-otra-nyt" data-vars-post-title="Por si no había suficientes empresas de IA, Jeff Bezos acaba de volver de las sombras para levantar otra más, según el NYT " data-vars-post-url="https://www.xataka.com/empresas-y-economia/no-habia-suficientes-empresas-ia-jeff-bezos-acaba-volver-sombras-para-levantar-otra-nyt" >Por si no había suficientes empresas de IA, Jeff Bezos acaba de volver de las sombras para levantar otra más, según el NYT</a></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
                                <item>
                <title><![CDATA[Gemini 3 promete más calidad y precisión que nunca en sus respuestas. La cuestión es si realmente notaremos la diferencia]]></title>
                <link>https://www.xataka.com/robotica-e-ia/gemini-3-promete-calidad-precision-que-nunca-sus-respuestas-cuestion-realmente-notaremos-diferencia</link>
                <guid>https://www.xataka.com/robotica-e-ia/gemini-3-promete-calidad-precision-que-nunca-sus-respuestas-cuestion-realmente-notaremos-diferencia</guid>
                <pubDate>Tue, 18 Nov 2025 16:01:06 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/775b0f/gemini3/1024_2000.jpeg" alt="Gemini&#x20;3&#x20;promete&#x20;m&#x00E1;s&#x20;calidad&#x20;y&#x20;precisi&#x00F3;n&#x20;que&#x20;nunca&#x20;en&#x20;sus&#x20;respuestas.&#x20;La&#x20;cuesti&#x00F3;n&#x20;es&#x20;si&#x20;realmente&#x20;notaremos&#x20;la&#x20;diferencia">
    </p>
    <p>Google ha anunciado el lanzamiento de <strong>Gemini 3</strong>, su nuevo modelo de inteligencia artificial. <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/google-esta-ganando-carrera-ia-openai-tiene-algo-mejor-usuarios" data-vars-post-title="Google está ganando la carrera de la IA. OpenAI tiene algo mejor: usuarios " data-vars-post-url="https://www.xataka.com/robotica-e-ia/google-esta-ganando-carrera-ia-openai-tiene-algo-mejor-usuarios" >En la empresa</a> afirman que es su modelo de razonamiento más avanzado porque "se ha diseñado para comprender la profundidad y los matices".&nbsp;</p>
<!-- BREAK 1 --><p>Gemini 3 estará además disponible de serie como parte del Modo IA en el renovado buscador de Google (en este caso y por el momento, solo en EEUU). Es la primera vez que Google ofrece las prestaciones de su modelo de IA desde el primer día en el buscador, pero también llega a la app de Gemini y los desarrolladores que trabajan con AI Studio y Vertex AI.</p>
<!-- BREAK 2 --><p>Tras el <a class="text-outboundlink" href="https://www.xataka.com/basics/gemini-2-5-pro-flash-cuales-novedades-nuevos-modelos-inteligencia-artificial-google-capaz-pensar-hablar" data-vars-post-title="Gemini 2.5 Pro y Flash: cuáles son las novedades de los nuevos modelos de Inteligencia Artificial de Google capaz de pensar y hablar" data-vars-post-url="https://www.xataka.com/basics/gemini-2-5-pro-flash-cuales-novedades-nuevos-modelos-inteligencia-artificial-google-capaz-pensar-hablar" >éxito de Gemini 2.5 Pro y Flash</a>, la nueva versión llega en 30 nuevos idiomas entre los que están <strong>el catalán, el euskera y el gallego</strong>, y como decimos se puede comenzar a probar desde hoy en Estados Unidos... o fuera de allí <a class="text-outboundlink" href="https://www.xataka.com/basics/mejores-vpn-2023-guia-17-mejores-servicios-para-proteger-tu-privacidad-online" data-vars-post-title="Mejores VPN 2025: guía con los 17 mejores servicios para proteger tu privacidad online" data-vars-post-url="https://www.xataka.com/basics/mejores-vpn-2023-guia-17-mejores-servicios-para-proteger-tu-privacidad-online" >mediante una VPN</a>.</p>
<!-- BREAK 3 --><h2>Gemini 3 promete. Al menos, en las pruebas</h2><p>En Google destacan cómo el comportamiento del modelo ha sido sobresaliente en diversas pruebas sintéticas. Así, Gemini 3 encabeza la clasificación de LMArena con 1.501 puntos —el primero en superar la barrera de los 1.500 puntos—.&nbsp;</p>
<div class="article-asset-image article-asset-normal article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="centro_sinmarco" height=1680 width=2036 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/8aaa2a/captura-de-pantalla-2025-11-18-a-las-10.34.00/450_1000.jpeg 450w, https://i.blogs.es/8aaa2a/captura-de-pantalla-2025-11-18-a-las-10.34.00/650_1200.jpeg 681w,https://i.blogs.es/8aaa2a/captura-de-pantalla-2025-11-18-a-las-10.34.00/1024_2000.jpeg 1024w, https://i.blogs.es/8aaa2a/captura-de-pantalla-2025-11-18-a-las-10.34.00/1366_2000.jpeg 1366w" src="https://i.blogs.es/8aaa2a/captura-de-pantalla-2025-11-18-a-las-10.34.00/450_1000.jpeg" alt="Captura De Pantalla 2025 11 18 A Las 10 34 00">
   <img alt="Captura De Pantalla 2025 11 18 A Las 10 34 00" class="centro_sinmarco" src="https://i.blogs.es/8aaa2a/captura-de-pantalla-2025-11-18-a-las-10.34.00/450_1000.jpeg">
   
        <span>Según Google, los resultados de las pruebas de Gemini 3 lo sitúan por encima de todos sus competidores en prácticamente todos los escenarios.</span>
   </div>
   </div>
</div>
<p>De hecho, logra razonar "al nivel de un doctorado" según las pruebas de Humanity's Last Exam (supera el 37,5% de la prueba sin herramientas) y GPQA Diamond (91,9%). También avanza de forma espectacular en matemáticas, como demuestra el 23,4% de la prueba MathArena Apex: GPT 5.1 obtiene un 1,0% y Claude Sonnet 4.5 un 1,6% en la misma prueba, por ejemplo.&nbsp;</p>
<!-- BREAK 4 --><p>El modelo quiere ser además más directo: sus respuestas son más "concisas [...] y prefiere ofrecer información valiosa en lugar de recurrir a clichés y halagos. <strong>Te dice lo que necesitas oír, no solo lo que quieres oír</strong>".</p>
<!-- BREAK 5 --><div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">
     <img alt="Tenemos&#x20;un&#x20;problema&#x20;con&#x20;la&#x20;IA&#x3A;&#x20;no&#x20;hay&#x20;forma&#x20;fiable&#x20;de&#x20;saber&#x20;si&#x20;ChatGPT&#x20;es&#x20;mejor&#x20;que&#x20;Gemini,&#x20;Copilot&#x20;o&#x20;Claude&#x20;" width="375" height="142" src="https://i.blogs.es/24c593/robots-luchando-2/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude </a>
   </div>
  </div>
 </div>
</div>
<p>El modo 'Deep Think' de Gemini 3 va incluso más allá en pruebas: en Humanity's Last Exam logra un 41,0%, pero es que además <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" data-vars-post-title="Si la pregunta es si la IA es ya tan buena como la inteligencia humana, la respuesta es: resuelve este puzzle" data-vars-post-url="https://www.xataka.com/robotica-e-ia/arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" >en el exigente ARC-AGI 2</a> logra un 45,1% (con ejecución de código), lo que demuestra el avance también en ese razonamiento abstracto y comprensión visual.</p>
<!-- BREAK 6 --><h2>Gemini 3 te explica el mundo de forma sencilla</h2>
<p>El modelo cuenta con una ventana de contexto de hasta un millón de tokens, lo que permite utilizarlo por ejemplo para analizar enormes repositorios de código o de texto y luego trabajar sobre esos datos.&nbsp;</p>
<!-- BREAK 7 --><div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
                   <img class="" height=1384 width=2382 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/a587e1/captura-de-pantalla-2025-11-18-a-las-15.18.37/450_1000.jpeg 450w, https://i.blogs.es/a587e1/captura-de-pantalla-2025-11-18-a-las-15.18.37/650_1200.jpeg 681w,https://i.blogs.es/a587e1/captura-de-pantalla-2025-11-18-a-las-15.18.37/1024_2000.jpeg 1024w, https://i.blogs.es/a587e1/captura-de-pantalla-2025-11-18-a-las-15.18.37/1366_2000.jpeg 1366w" src="https://i.blogs.es/a587e1/captura-de-pantalla-2025-11-18-a-las-15.18.37/450_1000.jpeg" alt="Captura De Pantalla 2025 11 18 A Las 15 18 37">
   <img alt="Captura De Pantalla 2025 11 18 A Las 15 18 37" class="" src="https://i.blogs.es/a587e1/captura-de-pantalla-2025-11-18-a-las-15.18.37/450_1000.jpeg">
   
      </div>
</div>
<p>Su soporte multimodal permite analizar todo tipo de información. Por ejemplo, Gemini 3 puede descifrar y traducir recetas escritas a mano en distintos idiomas para crear un libro de cocina familiar que poder compartir.&nbsp;</p>
<!-- BREAK 8 --><p>O analizar tus partidos de pickleball (suponemos que lo mismo ocurre en otros deportes) e identificar áreas en las que puedes mejorar y generar un plan de entrenamiento. O escrutar los datos de un paper de investigación&nbsp;y a partir de ellos generar código para una guía interactiva que nos ayude a comprender mejor esos estudios.</p>
<div class="article-asset-video article-asset-normal">
 <div class="asset-content">
  <div class="base-asset-video">
   <div class="js-dailymotion">
    <script type="application/json">
                          {"videoId":"x8jpy2b","autoplay":false,"title":"¿Qué hay DETRÁS de IAs como CHATGPT, DALL-E o MIDJOURNEY? | INTELIGENCIA ARTIFICIAL", "tag":"Webedia-prod", "duration":"1173"}
                  </script>
   </div>
  </div>
 </div>
</div>
<p>De hecho, la integración con Google Search es una parte especialmente importante de Gemini 3, que <strong>al estar "embebido" en AI Mode</strong> tiene capacidad para generar elementos visuales interactivos (widgets, calculadoras, simulaciones) en tiempo real. En Google quieren que la búsqueda sea más interactiva que nunca, y eso hará que en ocasiones las respuestas no sean un texto sin más, sino una pequeña webapp interactiva que nos permita entender mejor la respuesta.</p>
<!-- BREAK 9 --><h2>Programación (y agentes) al poder</h2>
<p>El otro elemento crucial del modelo está en su capacidad en el ámbito de la programación. Sus resultados en pruebas de este tipo vuelven a ser sobresalientes, y por ejemplo encabeza la <a rel="noopener, noreferrer" href="https://web.lmarena.ai/leaderboard" >clasificación de WebDev Arena</a> con una puntuación de 1.487 ELO.&nbsp;</p>
<!-- BREAK 10 --><div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="" height=1822 width=3134 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/9fe5f2/captura-de-pantalla-2025-11-18-a-las-15.26.25/450_1000.jpeg 450w, https://i.blogs.es/9fe5f2/captura-de-pantalla-2025-11-18-a-las-15.26.25/650_1200.jpeg 681w,https://i.blogs.es/9fe5f2/captura-de-pantalla-2025-11-18-a-las-15.26.25/1024_2000.jpeg 1024w, https://i.blogs.es/9fe5f2/captura-de-pantalla-2025-11-18-a-las-15.26.25/1366_2000.jpeg 1366w" src="https://i.blogs.es/9fe5f2/captura-de-pantalla-2025-11-18-a-las-15.26.25/450_1000.jpeg" alt="Captura De Pantalla 2025 11 18 A Las 15 26 25">
   <img alt="Captura De Pantalla 2025 11 18 A Las 15 26 25" class="" src="https://i.blogs.es/9fe5f2/captura-de-pantalla-2025-11-18-a-las-15.26.25/450_1000.jpeg">
   
        <span>El modelo se comporta ahora de forma mucho más potente en la parte visual.</span>
   </div>
   </div>
</div>
<p>También obtiene una puntuación del 54,2% en Terminal-Bench 2.0, que evalúa la &nbsp;capacidad de un modelo para usar herramientas y operar un ordenador a través de un terminal. Además, supera con creces a 2.5 Pro en SWE-bench Verified (76,2%), una prueba comparativa que mide la eficacia de los agentes de programación.&nbsp;</p>
<!-- BREAK 11 --><p>Esas capacidades de Gemini 3 para programar se quieren aprovechar en una nueva plataforma de desarrollo de agentes llamada <strong>Google Antigravity</strong>. La experiencia para el desarrollador es la de usar un entorno de desarrollo integrado (IDE) con IA "convencional", pero sus agentes pueden tener acceso al editor, al terminal y al navegador.&nbsp;</p>
<div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/no-sabemos-que-miden-exactamente-benchmarks-ia-asi-que-hemos-hablado-espanol-que-ha-creado-uno-dificiles" class="pivot-outboundlink" data-vars-post-title="No sabemos qué miden los benchmarks de IA. Así que hemos hablado con el español que ha creado uno de los más difíciles">
     <img alt="No&#x20;sabemos&#x20;qu&#x00E9;&#x20;miden&#x20;los&#x20;benchmarks&#x20;de&#x20;IA.&#x20;As&#x00ED;&#x20;que&#x20;hemos&#x20;hablado&#x20;con&#x20;el&#x20;espa&#x00F1;ol&#x20;que&#x20;ha&#x20;creado&#x20;uno&#x20;de&#x20;los&#x20;m&#x00E1;s&#x20;dif&#x00ED;ciles" width="375" height="142" src="https://i.blogs.es/4e26b0/robot-pizarra/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/no-sabemos-que-miden-exactamente-benchmarks-ia-asi-que-hemos-hablado-espanol-que-ha-creado-uno-dificiles" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="No sabemos qué miden los benchmarks de IA. Así que hemos hablado con el español que ha creado uno de los más difíciles">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/no-sabemos-que-miden-exactamente-benchmarks-ia-asi-que-hemos-hablado-espanol-que-ha-creado-uno-dificiles" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="No sabemos qué miden los benchmarks de IA. Así que hemos hablado con el español que ha creado uno de los más difíciles">No sabemos qué miden los benchmarks de IA. Así que hemos hablado con el español que ha creado uno de los más difíciles</a>
   </div>
  </div>
 </div>
</div>
<p>Eso significa que dichos agentes pueden planificar y ejecutar de forma autónoma tareas de software complejas y validar su propio código, algo que hace que más que nunca los desarrolladores humanos puedan dedicarse a revisar y auditar ese código.</p>
<!-- BREAK 12 --><h2>El verdadero reto de los modelos más recientes</h2><p>Sobre el papel Gemini 3 se postula como un modelo que realmente puede marcar la diiferencia frente a sus competidores. Los resultados en las pruebas y la propia trayectoria de Gemini nos hacen pensar que efectivamente el comportamiento de este modelo será notable.</p>
<div class="article-asset-image article-asset-normal article-asset-center">
 <div class="asset-content">
                   <img class="centro_sinmarco" height=911 width=1500 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/63ecc4/gemini2/450_1000.jpeg 450w, https://i.blogs.es/63ecc4/gemini2/650_1200.jpeg 681w,https://i.blogs.es/63ecc4/gemini2/1024_2000.jpeg 1024w, https://i.blogs.es/63ecc4/gemini2/1366_2000.jpeg 1366w" src="https://i.blogs.es/63ecc4/gemini2/450_1000.jpeg" alt="Gemini2">
   <img alt="Gemini2" class="centro_sinmarco" src="https://i.blogs.es/63ecc4/gemini2/450_1000.jpeg">
   
      </div>
</div>
<p>Sin embargo <strong>la cuestión es si realmente notaremos la diferencia</strong>. En los últimos meses hemos visto cómo otras empresas de IA han lanzado nuevos modelos, pero el impacto para una gran mayoría de usuarios ha sido discreto: los modelos anteriores ya se comportaban realmente bien, y aunqeu los nuevos sin duda aportan mejoras, para muchas consultas dichas mejoras son permiten percibir ese salto de rendimiento.</p>
<!-- BREAK 13 --><p>Aquí vemos dos formas de que Google efectivamente demuestre la capacidad de estos modelos. La primera oportunidad para Gemini 3 estará probablemente en el ámbito de la programación, y serán estos profesionales los que probablemente podrán sacar más partido de esas capacidades adicionales.&nbsp;</p>
<!-- BREAK 14 --><div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/google-gran-tapada-ia-gemini-esta-haciendo-practicamente-todo-bien" class="pivot-outboundlink" data-vars-post-title="Google es la gran tapada de la IA: con Gemini lo está haciendo prácticamente todo bien ">
     <img alt="Google&#x20;es&#x20;la&#x20;gran&#x20;tapada&#x20;de&#x20;la&#x20;IA&#x3A;&#x20;con&#x20;Gemini&#x20;lo&#x20;est&#x00E1;&#x20;haciendo&#x20;pr&#x00E1;cticamente&#x20;todo&#x20;bien&#x20;" width="375" height="142" src="https://i.blogs.es/07f2be/gemini/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/google-gran-tapada-ia-gemini-esta-haciendo-practicamente-todo-bien" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Google es la gran tapada de la IA: con Gemini lo está haciendo prácticamente todo bien ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/google-gran-tapada-ia-gemini-esta-haciendo-practicamente-todo-bien" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Google es la gran tapada de la IA: con Gemini lo está haciendo prácticamente todo bien ">Google es la gran tapada de la IA: con Gemini lo está haciendo prácticamente todo bien </a>
   </div>
  </div>
 </div>
</div>
<p>Pero para el resto de los usuarios, serán ese nuevo AI Mode y la Gemini app los que tendrán que lograr que notemos esas prestaciones. Nos intriga esa capacidad de responder con pequeños <strong>elementos interactivos</strong> —gráficos, widgets—, y puede que con ellos realmente sí descubramos esa nueva capacidad de este chatbot.&nbsp;</p>
<!-- BREAK 15 --><p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/aplicaciones/despidamos-a-google-assistant-decada-despues-google-ha-empezado-a-borrar-su-codigo-para-dejar-unica-opcion-gemini" data-vars-post-title="Despidamos a Google Assistant una década después. Google ha empezado a borrar su código para dejar una única opción: Gemini" data-vars-post-url="https://www.xataka.com/aplicaciones/despidamos-a-google-assistant-decada-despues-google-ha-empezado-a-borrar-su-codigo-para-dejar-unica-opcion-gemini" >Despidamos a Google Assistant una década después. Google ha empezado a borrar su código para dejar una única opción: Gemini</a></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
                                <item>
                <title><![CDATA[Alguien le dio 10.000 euros a una IA china y a otra estadounidense para que invirtieran. Y hubo un resultado inesperado]]></title>
                <link>https://www.xataka.com/robotica-e-ia/experimento-ha-puesto-a-cuatro-chatbots-eeuu-dos-china-a-invertir-10-000-dolares-criptomonedas-chinos-estan-arrasando</link>
                <guid>https://www.xataka.com/robotica-e-ia/experimento-ha-puesto-a-cuatro-chatbots-eeuu-dos-china-a-invertir-10-000-dolares-criptomonedas-chinos-estan-arrasando</guid>
                <pubDate>Thu, 30 Oct 2025 08:00:00 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/fa54bb/stock4-copia-2/1024_2000.jpeg" alt="Alguien&#x20;le&#x20;dio&#x20;10.000&#x20;euros&#x20;a&#x20;una&#x20;IA&#x20;china&#x20;y&#x20;a&#x20;otra&#x20;estadounidense&#x20;para&#x20;que&#x20;invirtieran.&#x20;Y&#x20;hubo&#x20;un&#x20;resultado&#x20;inesperado">
    </p>
    <p>¿Qué pasaría si le dieras 10.000 dólares a GPT-5 para que los invirtiese en criptomonedas? ¿Y si se los dieses al mismo tiempo a otros modelos y compitiesen entre ellos? Eso es justo la idea que han tenido en <a rel="noopener, noreferrer" href="https://nof1.ai/" >Nof1</a>... y el resultado está siendo fascinante.&nbsp;</p>
<!-- BREAK 1 --><p><strong>Seis modelos invirtiendo en criptos</strong>. Los responsables de Nof1 han creado Alpha Arena, un nuevo tipo de benchmark que según ellos "se hace más difícil cuanto más inteligente es la IA". La idea es relativamente simple: medir el rendimiento de seis modelos de última generación para ver cómo se comportan cuando se les dan 10.000 dólares (reales) y los invierten en criptomonedas en mercados reales. Los contendientes son los siguientes:&nbsp;</p>
<!-- BREAK 2 --><ul><li>GPT-5</li><li>Gemini 2.5 Pro</li><li>Claude Sonnet 4.5</li><li>Grok 4</li><li>DeepSeek Chat v3.1</li><li>Qwen 3 Max</li></ul><div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="" height=2848 width=4572 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/79e292/captura-de-pantalla-2025-10-29-a-las-16.04.54/450_1000.jpeg 450w, https://i.blogs.es/79e292/captura-de-pantalla-2025-10-29-a-las-16.04.54/650_1200.jpeg 681w,https://i.blogs.es/79e292/captura-de-pantalla-2025-10-29-a-las-16.04.54/1024_2000.jpeg 1024w, https://i.blogs.es/79e292/captura-de-pantalla-2025-10-29-a-las-16.04.54/1366_2000.jpeg 1366w" src="https://i.blogs.es/79e292/captura-de-pantalla-2025-10-29-a-las-16.04.54/450_1000.jpeg" alt="Captura De Pantalla 2025 10 29 A Las 16 04 54">
   <img alt="Captura De Pantalla 2025 10 29 A Las 16 04 54" class="" src="https://i.blogs.es/79e292/captura-de-pantalla-2025-10-29-a-las-16.04.54/450_1000.jpeg">
   
        <span>DeepSeek ha convertido sus 10.000 dólares en casi 20.000, y Qwen en 15.000, fantástico. GPT-5 y Gemini 2.5 Pro han perdido el 65% de su valor y están ambos en los 3.500 dólares. Desastre total.</span>
   </div>
   </div>
</div>
<p><strong>DeepSeek y Qwen triunfan, GPT-5 y Gemini se hunden</strong>. El resultado de estos 11 días desde que se inició esta "carrera" es fascinante. Los dos modelos chinos, DeepSeek y Qwen, han obtenido beneficios enormes: en DeepSeek el retorno es del 97% en estos momentos (llegó a a ser del 123%), mientras que a Qwen no le va mal con un 53%. Claude (0,84%) y Grok (-8,2%) se mantienen o pierden ligeramente, pero atentos, porque GPT-5 (-65,7%) y Gemini 2.5 Pro (66%) en estos momentos pierden dos terceras partes &nbsp;de lo invertido.&nbsp;</p>
<!-- BREAK 3 --><div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="" height=1216 width=4016 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/a9b7ce/captura-de-pantalla-2025-10-29-a-las-16.06.18/450_1000.jpeg 450w, https://i.blogs.es/a9b7ce/captura-de-pantalla-2025-10-29-a-las-16.06.18/650_1200.jpeg 681w,https://i.blogs.es/a9b7ce/captura-de-pantalla-2025-10-29-a-las-16.06.18/1024_2000.jpeg 1024w, https://i.blogs.es/a9b7ce/captura-de-pantalla-2025-10-29-a-las-16.06.18/1366_2000.jpeg 1366w" src="https://i.blogs.es/a9b7ce/captura-de-pantalla-2025-10-29-a-las-16.06.18/450_1000.jpeg" alt="Captura De Pantalla 2025 10 29 A Las 16 06 18">
   <img alt="Captura De Pantalla 2025 10 29 A Las 16 06 18" class="" src="https://i.blogs.es/a9b7ce/captura-de-pantalla-2025-10-29-a-las-16.06.18/450_1000.jpeg">
   
        <span>El resumen de ganadores y perdedores no solo muestra ese retorno positivo o negativo, sino también algo curioso: el número de operaciones. GPT-5 (75 movimientos) y sobre todo Gemini 2.5 Pro (¡193!) son extremadamente inquietos. Aunque no tiene por qué ser así siempre, los que menos operan son los que más están ganando.</span>
   </div>
   </div>
</div>
<p><strong>Fortunas cripto que vienen y se van</strong>. Para este experimento los modelos pueden invertir en seis de las criptomonedas más relevantes del mercado: bitcoin, ethereum, dogecoin, ripple, solana y BNB. Los modelos deciden si tomar posiciones en una o varias, así como las cantidades y el nivel de apalancamiento. Las posiciones se mantienen normalmente unas horas, aunque en algunos casos pueden mantenerse durante días.</p>
<!-- BREAK 4 --><p><strong>Aprendiendo poco a poco</strong>. Todos ellos compiten desde el pasado 18 de octubre en la "primera temporada" de un experimento que se prolongará hasta el 3 de noviembre. Como <a rel="noopener, noreferrer" href="https://nof1.ai/blog/TechPost1" >explican sus creadores</a>, esa primera iteración permitirá obtener las primeras conclusiones sobre cómo estos modelos rinden en el ámbito financiero.&nbsp;</p>
<!-- BREAK 5 --><div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/criptomonedas/bitcoin-supera-111-000-dolares-marca-nuevo-record-historico-hace-rodeado-amor-institucional" class="pivot-outboundlink" data-vars-post-title="Bitcoin acaba de alcanzar un nuevo máximo histórico de 110.000 dólares porque la banca y las empresas han pasado de odiarlo a amarlo">
     <img alt="Bitcoin&#x20;acaba&#x20;de&#x20;alcanzar&#x20;un&#x20;nuevo&#x20;m&#x00E1;ximo&#x20;hist&#x00F3;rico&#x20;de&#x20;110.000&#x20;d&#x00F3;lares&#x20;porque&#x20;la&#x20;banca&#x20;y&#x20;las&#x20;empresas&#x20;han&#x20;pasado&#x20;de&#x20;odiarlo&#x20;a&#x20;amarlo" width="375" height="142" src="https://i.blogs.es/c50c48/bitcoin2/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/criptomonedas/bitcoin-supera-111-000-dolares-marca-nuevo-record-historico-hace-rodeado-amor-institucional" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Bitcoin acaba de alcanzar un nuevo máximo histórico de 110.000 dólares porque la banca y las empresas han pasado de odiarlo a amarlo">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/criptomonedas/bitcoin-supera-111-000-dolares-marca-nuevo-record-historico-hace-rodeado-amor-institucional" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Bitcoin acaba de alcanzar un nuevo máximo histórico de 110.000 dólares porque la banca y las empresas han pasado de odiarlo a amarlo">Bitcoin acaba de alcanzar un nuevo máximo histórico de 110.000 dólares porque la banca y las empresas han pasado de odiarlo a amarlo</a>
   </div>
  </div>
 </div>
</div>
<p><strong>Aquí venimos a ganar dinero</strong>. El objetivo es simple: maximizar los beneficios y minimizar las pérdidas (PnL). Esta primera temporada es tan solo eso, porque a partir de ahí se aplicará lo aprendido tras cada temporada para pulir los prompts y añadir nuevas características al experimento y así lograr crear modelos que en teoría se comportarán cada vez mejor a la hora de invertir en mercados financieros.</p>
<!-- BREAK 6 --><p><strong>Trading algorítmico a lo bestia</strong>. Lo que están haciendo estos modelos sería una locura para inversores humanos, sobre todo porque todos ellos no solo se exponen a la volatilidad del mercado cripto, sino que además la multiplican porque hacen uso del <a rel="noopener, noreferrer" href="https://es.wikipedia.org/wiki/Apalancamiento" >apalancamiento</a> (<em>leverage</em>). Con este mecanismo uno puede lograr beneficios enormes mucho más rápido, pero el riesgo es también extremo. Los modelos de hecho usan apalancamientos absolutamente extraordinarios de 20x o 25x, y pueden tomar tanto posiciones a corto (short, se "apuesta" a que el precio de un activo bajará) o a largo (long, se "apuesta" a que el precio del activo subirá).&nbsp;</p>
<div class="article-asset-image article-asset-normal article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="centro_sinmarco" height=598 width=1807 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/d3666d/nof1-proceso/450_1000.png 450w, https://i.blogs.es/d3666d/nof1-proceso/650_1200.png 681w,https://i.blogs.es/d3666d/nof1-proceso/1024_2000.png 1024w, https://i.blogs.es/d3666d/nof1-proceso/1366_2000.png 1366w" src="https://i.blogs.es/d3666d/nof1-proceso/450_1000.png" alt="Nof1 Proceso">
   <img alt="Nof1 Proceso" class="centro_sinmarco" src="https://i.blogs.es/d3666d/nof1-proceso/450_1000.png">
   
        <span>El funcionamiento del experimento-benchmark es relativamente sencillo, pero se irá complicando en futuras temporadas.</span>
   </div>
   </div>
</div>
<p><strong>Las máquinas no entran en pánico</strong>. Para tratar de controlar esos riesgos, los modelos tienen en sus prompts reglas claras en cuanto a límites de riesgo (estableciendo señales de stop loss claras, por ejemplo) o de confianza en sus criterios. Y además, las siguen, lo que permite que salvo que se produzcan esas señales, los modelos mantengan su posición. Aquí, por cierto, hablamos de trading de frecuencia media o baja: las decisiones se toman en minutos o incluso horas, no en microsegundos. Eso, afirman los creadores, permite responder a la pregunta de si un modelo puede tomar buenas decisiones si tiene suficiente tiempo e información.</p>
<!-- BREAK 7 --><p><strong>Ni se os ocurra hacerlo en casa</strong>. Este experimento es solo eso, un experimento, y de hecho financieramente hablando hace aguas por todas partes. Para empezar, porque el periodo de prueba de esta primera temporada es extremadamente corto y no permite evaluar el comportamiento a largo plazo. Y para terminar (entre otras muchas cosas), porque la información a la que tienen acceso los modelos es muy limitada. No tienen en cuenta noticias relacionadas con este ámbito y solo cuentan con datos numéricos que corresponden a precios medios y volúmenes actuales e históricos, y algunos indicadores técnicos. Esa información.</p>
<div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="" height=2902 width=2992 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/42eaf5/captura-de-pantalla-2025-10-29-a-las-15.58.27/450_1000.jpeg 450w, https://i.blogs.es/42eaf5/captura-de-pantalla-2025-10-29-a-las-15.58.27/650_1200.jpeg 681w,https://i.blogs.es/42eaf5/captura-de-pantalla-2025-10-29-a-las-15.58.27/1024_2000.jpeg 1024w, https://i.blogs.es/42eaf5/captura-de-pantalla-2025-10-29-a-las-15.58.27/1366_2000.jpeg 1366w" src="https://i.blogs.es/42eaf5/captura-de-pantalla-2025-10-29-a-las-15.58.27/450_1000.jpeg" alt="Captura De Pantalla 2025 10 29 A Las 15 58 27">
   <img alt="Captura De Pantalla 2025 10 29 A Las 15 58 27" class="" src="https://i.blogs.es/42eaf5/captura-de-pantalla-2025-10-29-a-las-15.58.27/450_1000.jpeg">
   
        <span>En la parte derecha DeepSeek v3.1 confiesa cómo mantiene su posición porque no se cumple ninguna condición que la invalide, y pinchando en ella se puede ver qué tiene en cuenta (valor de BTC o ETH, por ejemplo) para modifiar o no ese criterio.</span>
   </div>
   </div>
</div>
<p><strong>Los modelos lo cuentan todo</strong>. Uno de los apartados de la interfaz muestra el "Model Chat" donde es posible ver cómo cada modelo "reflexiona" sobre su posición. Si pinchamos en esa reflexión podremos ver todos los datos actuales e históricos con los que ha trabajado para llegar a esa decisión (mantengo mi posición, la cambio) y así podemos enterarnos en cada momento de sus razones para mover ficha.&nbsp;</p>
<!-- BREAK 8 --><p><strong>Que ganen ahora no significa que sean los mejores</strong>. Los responsables de Nof1 explican que esto no va de declarar el mejor modelo de trading de los seis, &nbsp;porque esto es solo un experimento. Como dicen, "somos profundamente conscientes de los fallos de esta primera temporada, incluyendo, entre otros: sesgo de respuesta, tamaños de muestra limitados/falta de rigor estadístico y brevedad del período de evaluación". Este experimento se irá repitiendo a lo largo de distintas temporadas y con novedades que se sumarán a los mecanismos de decisión e información de la que disponen los modelos, y sin duda todo ello contribuirá a determinar mejor cómo se comportan estos modelos y, quizás, cómo tener claro si efectivamente unos se comportan mejor que otros de forma consistente. Fascinante.</p>
<!-- BREAK 9 --><p>Imagen | <a rel="noopener, noreferrer" href="https://unsplash.com/es/fotos/un-primer-plano-de-un-grafico-de-acciones-en-la-pantalla-de-una-computadora-MTxseYMqYzk" >Aedrian Salazar</a></p>
<p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/criptomonedas/butan-queria-tener-su-propio-carne-identidad-digital-ha-usado-ethereum-para-crearselo-a-sus-800-000-ciudadanos" data-vars-post-title="Un país ha emprendido el mayor experimento con criptomonedas del mundo: Bután y los 800.000 carnés de identidad con Ethereum" data-vars-post-url="https://www.xataka.com/criptomonedas/butan-queria-tener-su-propio-carne-identidad-digital-ha-usado-ethereum-para-crearselo-a-sus-800-000-ciudadanos" >Un país ha emprendido el mayor experimento con criptomonedas del mundo: Bután y los 800.000 carnés de identidad con Ethereum</a></p>
<p><br></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
                                <item>
                <title><![CDATA[El nuevo "test" para descubrir si un modelo de IA o no es verdaderamente inteligente: ponerle a jugar a Pokémon]]></title>
                <link>https://www.xataka.com/robotica-e-ia/hay-nueva-forma-comprobar-tu-ia-lista-no-ponerla-a-jugar-a-pokemon</link>
                <guid>https://www.xataka.com/robotica-e-ia/hay-nueva-forma-comprobar-tu-ia-lista-no-ponerla-a-jugar-a-pokemon</guid>
                <pubDate>Sun, 20 Apr 2025 08:31:41 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/60bdf0/pokemon1/1024_2000.jpeg" alt="El&#x20;nuevo&#x20;&quot;test&quot;&#x20;para&#x20;descubrir&#x20;si&#x20;un&#x20;modelo&#x20;de&#x20;IA&#x20;o&#x20;no&#x20;es&#x20;verdaderamente&#x20;inteligente&#x3A;&#x20;ponerle&#x20;a&#x20;jugar&#x20;a&#x20;Pok&#x00E9;mon">
    </p>
    <p>El psicólogo suizo Jean Piaget tenía una definición de inteligencia especialmente interesante. Él decía que "la inteligencia es lo que usas cuando no sabes qué hacer". Ese puede ser un elemento clave de una nueva tendencia para medir la capacidad de la inteligencia artificial. Una que pone a la IA a jugar a Pokémon.</p>
<!-- BREAK 1 --><p><strong>¿Cómo de inteligente es la inteligencia artificial?</strong> Ya hay pruebas que permiten valorar la capacidad de la IA a la hora de resolver problemas científicos, matemáticos o de programación. Todo eso ayuda a "medir" el progreso de estos modelos, pero frente a todas esas técnicas hay una idea singular: la de medir la citada capacidad de la IA jugando a Pokémon.</p>
<p><strong>Claude inició la tendencia</strong>. Los responsables de Anthropic tuvieron la ocurrencia de probar <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/ia-claude-lleva-miles-horas-jugando-a-pokemon-se-ha-atascado-monte-selenite" data-vars-post-title="En Anthropic se han obsesionado con algo de apariencia trivial pero clave para la IA: que Claude se pase 'Pokémon'" data-vars-post-url="https://www.xataka.com/robotica-e-ia/ia-claude-lleva-miles-horas-jugando-a-pokemon-se-ha-atascado-monte-selenite">cómo se comportaría su modelo de IA, Claude 3.7, al jugar a Pokémon Red</a>. Así que hicieron uso de su herramienta de navegación automática para ver cómo utilizaba sus capacidades para ir jugando al videojuego. Crearon <a rel="noopener, noreferrer" href="https://www.twitch.tv/claudeplayspokemon">un canal de Twitch</a> e incluso hay un seguimiento de cómo le está yendo <a rel="noopener, noreferrer" href="https://www.reddit.com/r/ClaudePlaysPokemon/comments/1j3kwhc/claude_plays_pok%C3%A9mon_megathread/">en Reddit</a>.</p>
<!-- BREAK 2 --><div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">
     <img alt="Tenemos&#x20;un&#x20;problema&#x20;con&#x20;la&#x20;IA&#x3A;&#x20;no&#x20;hay&#x20;forma&#x20;fiable&#x20;de&#x20;saber&#x20;si&#x20;ChatGPT&#x20;es&#x20;mejor&#x20;que&#x20;Gemini,&#x20;Copilot&#x20;o&#x20;Claude&#x20;" width="375" height="142" src="https://i.blogs.es/24c593/robots-luchando-2/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude </a>
   </div>
  </div>
 </div>
</div>
<p><strong>Y ahora Gemini Pro recoge el guante</strong>. Un desarrollador que no tiene afiliación alguna con Google ha decidido aplicar la misma idea, pero con Gemini Pro 2.5 Experimental como modelo de IA para probarla. <a rel="noopener, noreferrer" href="https://www.twitch.tv/gemini_plays_pokemon">En su canal de Twitch</a> está mostrando una partida de Pokémon Blue (era el que conocía más este desarrollador) ejecutándose en un emulador de la Game Boy Advance.</p>
<!-- BREAK 3 --><p><strong>¿Quién gana?</strong> De momento Gemini Pro 2.5 Experimental parece estar haciéndolo algo mejor. Claude se quedó atascado en una fase de juego <a rel="noopener, noreferrer" href="https://x.com/peterwildeford/status/1898262490414289129">un par de veces</a>, por ejemplo, lo que ha obligado a volver a iniciar sus partidas. Gemini parece estar avanzando sin tantos problemas, aunque no juega de la misma manera que Claude y por ejemplo tiene acceso a un minimapa que según su creador compensa una de las limitaciones de Gemini, que no cuenta con herramientas de navegación automática como Claude.</p>
<div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
                   <img class="" height=1138 width=2048 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/ea5951/captura-de-pantalla-2025-04-16-a-las-11.54.48/450_1000.jpeg 450w, https://i.blogs.es/ea5951/captura-de-pantalla-2025-04-16-a-las-11.54.48/650_1200.jpeg 681w,https://i.blogs.es/ea5951/captura-de-pantalla-2025-04-16-a-las-11.54.48/1024_2000.jpeg 1024w, https://i.blogs.es/ea5951/captura-de-pantalla-2025-04-16-a-las-11.54.48/1366_2000.jpeg 1366w" src="https://i.blogs.es/ea5951/captura-de-pantalla-2025-04-16-a-las-11.54.48/450_1000.jpeg" alt="Captura De Pantalla 2025 04 16 A Las 11 54 48">
   <img alt="Captura De Pantalla 2025 04 16 A Las 11 54 48" class="" src="https://i.blogs.es/ea5951/captura-de-pantalla-2025-04-16-a-las-11.54.48/450_1000.jpeg">
   
      </div>
</div>
<p><strong>Por qué Pokémon para la Game Boy</strong>. La versión de Pokémon para la Game Boy Advance que se está usando en estos experimentos es perfecta para evaluar esas capacidades de los LLM por varias razones. Por ejemplo, se trata de un videojuego por turnos, lo que permite a la IA "pensar" su siguiente movimiento. Pero además es un juego gráficamente simple, lo que hace más sencillo para estos modelos "ver" la pantalla y entender lo que pasa en cada momento sin que eso sea muy costoso a nivel de recursos.</p>
<!-- BREAK 4 --><p><strong>Un benchmark sorprendentemente útil</strong>. Esta forma de evaluar lo inteligente que es una IA puede ser tan reveladora como las pruebas de programación o de matemáticas. O más, incluso. Si alguien le da a un niño de 10 años una Nintendo Switch, ese niño aprenderá a jugar a cualquier juego en minutos. Sin embargo las IAs suelen tenerlo especialmente difícil en este escenario, y acaban ejecutando movimientos ilegales.</p>
<div class="article-asset-image article-asset-normal article-asset-center">
 <div class="asset-content">
                    <a rel="noopener, noreferrer" href="https://x.com/arcprize/status/1890464921604719103">
         <img class="centro_sinmarco" height=1172 width=1264 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/d21975/captura-de-pantalla-2025-04-16-a-las-12.35.56/450_1000.jpeg 450w, https://i.blogs.es/d21975/captura-de-pantalla-2025-04-16-a-las-12.35.56/650_1200.jpeg 681w,https://i.blogs.es/d21975/captura-de-pantalla-2025-04-16-a-las-12.35.56/1024_2000.jpeg 1024w, https://i.blogs.es/d21975/captura-de-pantalla-2025-04-16-a-las-12.35.56/1366_2000.jpeg 1366w" src="https://i.blogs.es/d21975/captura-de-pantalla-2025-04-16-a-las-12.35.56/450_1000.jpeg" alt="Captura De Pantalla 2025 04 16 A Las 12 35 56">
    <img alt="Captura De Pantalla 2025 04 16 A Las 12 35 56" class="centro_sinmarco" src="https://i.blogs.es/d21975/captura-de-pantalla-2025-04-16-a-las-12.35.56/450_1000.jpeg">
     </a>
 
      </div>
</div>
<p><strong>Nada de memorización</strong>. Muchos de los benchmarks utilizados para medir la capacidad de los modelos de IA se basa en su "memoria". Cuando resuelven un problema es normalmente porque la solución forma parte de su conjunto de datos de entrenamiento, o ya había un problema similar solucionado y que pueden "replicar" o "regurgitar". En esta aproximación la propuesta es algo diferente, y exige cierta capacidad de adaptación a los modelos de IA.</p>
<!-- BREAK 5 --><p><strong>ARC-AGI y el juego Snake</strong>. En febrero la ARC Prize Foundation, que desarrolla un benchmark igualmente llamativo para modelos de IA, <a rel="noopener, noreferrer" href="https://arcprize.org/blog/snakebench">experimentó con otro videojuego</a> sencillo: una versión del <a class="text-outboundlink" href="https://www.xatakamovil.com/movil-y-sociedad/que-fue-del-snake-el-mitico-juego-de-la-serpiente-de-nokia" data-vars-post-title="¿Qué fue del Snake, el mítico juego de la serpiente de Nokia?" data-vars-post-url="https://www.xatakamovil.com/movil-y-sociedad/que-fue-del-snake-el-mitico-juego-de-la-serpiente-de-nokia">mítico Snake</a> que enfrentaba a diversos modelos de IA para ver cómo se comportaban. Los modelos de razonamiento fueron los claros ganadores (el 78% de victorias), y de nuevo esto les mostró la relevancia de este tipo de videojuegos para mejorar los modelos de IA en el futuro.</p>
<div class="article-asset-video article-asset-normal">
 <div class="asset-content">
  <div class="base-asset-video">
   <div class="js-dailymotion">
    <script type="application/json">
                          {"videoId":"x9f93vm","autoplay":false,"title":"Presentación de Claude Code", "tag":"", "duration":"234"}
                  </script>
   </div>
  </div>
 </div>
</div>
<p><strong>La IA aprende a adaptarse</strong>. Como veníamos diciendo, este tipo de benchmarks son especialmente interesantes porque nos permiten comprobar si un modelo de IA es capaz de adaptarse a nuevas situaciones y retos y de superarlas. Es algo que empresas como DeepMind llevan tiempo haciendo con algunos de sus desarrollos, y sin duda es una alternativa interesante que explorar para los desarrolladores de estos modelos.</p>
<!-- BREAK 6 --><p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/he-usado-claude-3-7-durante-horas-cercano-a-cerebro-humano-que-he-sentido-ia" data-vars-post-title="He usado Claude 3.7 durante horas. Es lo más cercano a un cerebro humano que he sentido con una IA" data-vars-post-url="https://www.xataka.com/robotica-e-ia/he-usado-claude-3-7-durante-horas-cercano-a-cerebro-humano-que-he-sentido-ia">He usado Claude 3.7 durante horas. Es lo más cercano a un cerebro humano que he sentido con una IA</a></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
                                <item>
                <title><![CDATA[No sabemos qué miden los benchmarks de IA. Así que hemos hablado con el español que ha creado uno de los más difíciles]]></title>
                <link>https://www.xataka.com/robotica-e-ia/no-sabemos-que-miden-exactamente-benchmarks-ia-asi-que-hemos-hablado-espanol-que-ha-creado-uno-dificiles</link>
                <guid>https://www.xataka.com/robotica-e-ia/no-sabemos-que-miden-exactamente-benchmarks-ia-asi-que-hemos-hablado-espanol-que-ha-creado-uno-dificiles</guid>
                <pubDate>Sat, 12 Apr 2025 09:30:14 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/4e26b0/robot-pizarra/1024_2000.jpeg" alt="No&#x20;sabemos&#x20;qu&#x00E9;&#x20;miden&#x20;los&#x20;benchmarks&#x20;de&#x20;IA.&#x20;As&#x00ED;&#x20;que&#x20;hemos&#x20;hablado&#x20;con&#x20;el&#x20;espa&#x00F1;ol&#x20;que&#x20;ha&#x20;creado&#x20;uno&#x20;de&#x20;los&#x20;m&#x00E1;s&#x20;dif&#x00ED;ciles">
    </p>
    <p>Gemini 2.5 Pro es el mejor modelo de IA de la historia. El más inteligente. Al menos, ahora mismo. No lo digo yo, lo dice <a rel="noopener, noreferrer" href="https://lmarena.ai/?leaderboard">la clasificación de Chatbot Arena</a>, una plataforma en la que se ejecutan <strong>diversas pruebas o benchmarks</strong> para tratar de medir la capacidad global de los modernos modelos de IA.</p>
<!-- BREAK 1 --><p>Según esas pruebas, en estos momentos Gemini 2.5 Pro Experimental, <a rel="noopener, noreferrer" href="https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/">lanzado</a> el pasado 25 de marzo, tiene una puntuación de 1.440 puntos, bastante por encima de GPT-4o (1.406), <a class="text-outboundlink" href="https://www.xataka.com/basics/grok-3-que-principales-novedades-nuevo-modelo-inteligencia-artificial-xai" data-vars-post-title="Grok 3: qué es y principales novedades del nuevo modelo de inteligencia artificial de xAI " data-vars-post-url="https://www.xataka.com/basics/grok-3-que-principales-novedades-nuevo-modelo-inteligencia-artificial-xai">Grok 3</a> (1.404), <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/gpt-4-5-demostracion-que-usar-gpus-datos-no-sirve-casi-nada" data-vars-post-title="GPT-4.5 es la demostracion de que usar más GPUs y más datos ya no sirve de casi nada " data-vars-post-url="https://www.xataka.com/robotica-e-ia/gpt-4-5-demostracion-que-usar-gpus-datos-no-sirve-casi-nada">GPT-4.5</a> (1.398) y desde luego que un DeepSeek R1 que a pesar de su fama está en séptimo lugar con una puntuación de 1.359 puntos.</p>
<div class="article-asset-image article-asset-normal article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="centro_sinmarco" height=1408 width=2198 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/ad25bd/captura-de-pantalla-2025-04-04-a-las-15.11.05/450_1000.jpeg 450w, https://i.blogs.es/ad25bd/captura-de-pantalla-2025-04-04-a-las-15.11.05/650_1200.jpeg 681w,https://i.blogs.es/ad25bd/captura-de-pantalla-2025-04-04-a-las-15.11.05/1024_2000.jpeg 1024w, https://i.blogs.es/ad25bd/captura-de-pantalla-2025-04-04-a-las-15.11.05/1366_2000.jpeg 1366w" src="https://i.blogs.es/ad25bd/captura-de-pantalla-2025-04-04-a-las-15.11.05/450_1000.jpeg" alt="Captura De Pantalla 2025 04 04 A Las 15 11 05">
   <img alt="Captura De Pantalla 2025 04 04 A Las 15 11 05" class="centro_sinmarco" src="https://i.blogs.es/ad25bd/captura-de-pantalla-2025-04-04-a-las-15.11.05/450_1000.jpeg">
   
        <span>En ranking actual de Chatbot Arena coloca a Gemini Pro 2.5 Experimental como el modelo de IA más capaz en estos momentos. Eso (probablemente) no dure mucho.</span>
   </div>
   </div>
</div>
<p>La propia Google presumía de la capacidad de Gemini 2.5 Pro Experimental en el anuncio oficial. Como suele ocurrir en estos anuncios, las empresas muestran una tabla en las que comparan su rendimiento con el de otros modelos equiparables en distintas pruebas.</p>
<!-- BREAK 2 --><p>En casi todas ellas Google aplastaba a sus rivales en pruebas muy conocidas en este segmento. Está por ejemplo el <a rel="noopener, noreferrer" href="https://duckduckgo.com/?t=ffab&q=humanity+last+exam&ia=web">Humanity's Last Exam</a> (conocimientos generales y razonamiento), <a rel="noopener, noreferrer" href="https://arxiv.org/abs/2311.12022">GPQA diamond</a> (ciencia), <a rel="noopener, noreferrer" href="https://www.vals.ai/benchmarks/aime-2025-03-11">AIME 2025</a> (matemáticas), <a rel="noopener, noreferrer" href="https://livecodebench.github.io/leaderboard.html">LiveCodeBench v5</a> y <a rel="noopener, noreferrer" href="https://www.swebench.com/#verified">SWE-bench verified</a> (programación) o <a rel="noopener, noreferrer" href="https://mmmu-benchmark.github.io/">MMMU</a> (razonamiento visual).</p>
<div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/antes-de-hablar-de-inteligencia-artificial-que-es-la-inteligencia" class="pivot-outboundlink" data-vars-post-title="Antes de hablar de inteligencia artificial... ¿qué es la inteligencia?">
     <img alt="Antes&#x20;de&#x20;hablar&#x20;de&#x20;inteligencia&#x20;artificial...&#x20;&#x00BF;qu&#x00E9;&#x20;es&#x20;la&#x20;inteligencia&#x3F;" width="375" height="142" src="https://i.blogs.es/2f6d18/hand-814694_1280/375_142.jpg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/antes-de-hablar-de-inteligencia-artificial-que-es-la-inteligencia" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Antes de hablar de inteligencia artificial... ¿qué es la inteligencia?">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/antes-de-hablar-de-inteligencia-artificial-que-es-la-inteligencia" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Antes de hablar de inteligencia artificial... ¿qué es la inteligencia?">Antes de hablar de inteligencia artificial... ¿qué es la inteligencia?</a>
   </div>
  </div>
 </div>
</div>
<p>Todos esos benchmarks tratan de medir la capacidad de estos modelos en ámbitos más o menos específicos, y todos ayudan a demostrar que los modelos, efectivamente, van mejorando. Y sin embargo ninguno de ellos responde a la pregunta fundamental:</p>
<!-- BREAK 3 --><p>¿Es la IA <strong>tan inteligente</strong> como el ser humano?</p>
<p>Ahí está lo realmente complicado, porque la definición de inteligencia tampoco es del todo clara. Hay distintos tipos de inteligencia, de hecho, y medirlas en humanos tampoco es sencillo o siquiera posible. Y comparar la capacidad de una IA con la capacidad de una inteligencia humana tampoco suele ser nada fácil.</p>
<!-- BREAK 4 --><div class="article-asset-summary article-asset-small article-asset-right">
 <div class="asset-content">
     <p class="sumario_derecha">Algunos expertos se preguntan si los laboratorios de IA no estarán haciendo trampas con los benchmarks</p>
   </div>
</div>
<p>Hay de hecho quien argumenta que el progreso de los modelos de IA es engañoso. Lo <a rel="noopener, noreferrer" href="https://zeropath.com/blog/on-recent-ai-model-progress">hacía recientemente</a> Dean Valentine, de la startup ZeroPath. Él y su equipo crearon un sistema de IA que analiza grandes proyectos de código en busca de problemas de seguridad. <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/claude-3-5-sonnet-apunta-a-yugular-gpt-4o-permite-crear-paginas-web-juegos-se-puede-usar-gratis" data-vars-post-title="Claude 3.5 Sonnet apunta a la yugular de GPT-4o: permite crear desde páginas web hasta juegos (y se puede usar gratis)" data-vars-post-url="https://www.xataka.com/robotica-e-ia/claude-3-5-sonnet-apunta-a-yugular-gpt-4o-permite-crear-paginas-web-juegos-se-puede-usar-gratis">Con Claude 3.5 Sonnet</a> notaron un gran salto, pero a partir de ahí las posteriores versiones les han parecido mucho menos llamativas.</p>
<!-- BREAK 5 --><p>De hecho, este experto apuntaba a que hoy en día muchas de las empresas que lanzan estos modelos se centran demasiado en salir bien en la foto de los benchmarks existentes y más populares y en "sonar inteligentes" en las conversaciones con los seres humanos. <strong>Se pregunta si los laboratorios de IA están haciendo trampas y mintiendo</strong>: para él la evolución que muestran los benchmarks no se corresponde con los beneficios reales al usarlos.</p>
<h2>FrontierMath y el reto de resolver problemas que (casi) nadie ha resuelto</h2>
<p>Pero hay intentos de responder a esa pregunta. Uno de ellos proviene del equipo que desarrolla <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi" data-vars-post-title="Si la pregunta es si la IA es ya tan buena como la inteligencia humana, la respuesta es: resuelve este puzzle" data-vars-post-url="https://www.xataka.com/robotica-e-ia/arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi">el proyecto ARC-AGI 2</a>, un conjunto de pruebas que se derivan de la <a class="text-outboundlink" href="https://www.xataka.com/inteligencia-artificial/paradoja-moravec-que-inteligencia-artificial-hace-facil-dificil-viceversa" data-vars-post-title="La paradoja de Moravec: por qué la inteligencia artificial hace fácil lo difícil (y viceversa)" data-vars-post-url="https://www.xataka.com/inteligencia-artificial/paradoja-moravec-que-inteligencia-artificial-hace-facil-dificil-viceversa">paradoja de Moravec</a>: son relativamente fáciles para el ser humano, pero muy difíciles para los modelos de IA.</p>
<!-- BREAK 6 --><div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="" height=1280 width=1920 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/4f8df1/sevilla/450_1000.jpeg 450w, https://i.blogs.es/4f8df1/sevilla/650_1200.jpeg 681w,https://i.blogs.es/4f8df1/sevilla/1024_2000.jpeg 1024w, https://i.blogs.es/4f8df1/sevilla/1366_2000.jpeg 1366w" src="https://i.blogs.es/4f8df1/sevilla/450_1000.jpeg" alt="Sevilla">
   <img alt="Sevilla" class="" src="https://i.blogs.es/4f8df1/sevilla/450_1000.jpeg">
   
        <span>Jaime Sevilla, CEO de Epoch AI.</span>
   </div>
   </div>
</div>
<p>Dichas pruebas miden la capacidad de generalización y razonamiento abstracto con puzzles visuales, y sin duda son parte interesante de ese esfuerzo por valorar hasta dónde hemos llegado en cada momento con los modelos de IA.</p>
<!-- BREAK 7 --><p>Otra de las pruebas más llamativas de los últimos tiempos es <a rel="noopener, noreferrer" href="https://epoch.ai/frontiermath/the-benchmark">FrontierMath</a>. Este benchmark creado por la empresa <a rel="noopener, noreferrer" href="https://epoch.ai/">EpochAI</a> consiste en unos 300 problemas matemáticos de distinto nivel.</p>
<p>Han sido diseñados por un equipo de más de 60 matemáticos entre los cuales está Terence Tao, ganador de la medalla Fields. Aunque hay algunos problemas más asequibles, el 25% de ellos están calificados como especialmente complejos. De hecho, solo los mejores expertos podrían resolverlos, y <strong>tardarían incluso días</strong> en hacerlo.</p>
<!-- BREAK 8 --><div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">
     <img alt="Tenemos&#x20;un&#x20;problema&#x20;con&#x20;la&#x20;IA&#x3A;&#x20;no&#x20;hay&#x20;forma&#x20;fiable&#x20;de&#x20;saber&#x20;si&#x20;ChatGPT&#x20;es&#x20;mejor&#x20;que&#x20;Gemini,&#x20;Copilot&#x20;o&#x20;Claude&#x20;" width="375" height="142" src="https://i.blogs.es/24c593/robots-luchando-2/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude </a>
   </div>
  </div>
 </div>
</div>
<p>Este conjunto de pruebas es además especial por otro aspecto: se trata de problemas no publicados y que por tanto no han sido parte de los conjuntos de entrenamiento de ningún modelo de IA. Para resolverlos las máquinas necesitan desde luego ser capaces de mostrar una "inteligencia matemática" especial. Una que <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil " data-vars-post-url="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil">ayuda precisamente a algo cada vez más difícil</a>: valorar la evolución de estos modelos.</p>
<!-- BREAK 9 --><p>En Xataka hemos podido hablar con <strong>Jaime Sevilla</strong> (<a rel="noopener, noreferrer" href="https://x.com/Jsevillamol">@Jsevillamol</a>), que precisamente es el CEO de EpochAI y tiene una visión muy clara y personal sobre cómo deben ser las pruebas para medir la capacidad de un modelo de IA.</p>
<p>Para empezar, señala, "necesitas tener una manera de medir como esta avanzando la IA. Interactuar con ella te puede dar perspectiva, pero no tienes una impresion rigurosa de hasta donde va a llegar y en qué dominios es mas experta".</p>
<!-- BREAK 10 --><div class="article-asset-image article-asset-small article-asset-right">
 <div class="asset-content">
                   <img class="derecha_sinmarco" height=390 width=300 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/422e9b/jsevilla/450_1000.png 450w, https://i.blogs.es/422e9b/jsevilla/650_1200.png 681w,https://i.blogs.es/422e9b/jsevilla/1024_2000.png 1024w, https://i.blogs.es/422e9b/jsevilla/1366_2000.png 1366w" src="https://i.blogs.es/422e9b/jsevilla/450_1000.png" alt="Jsevilla">
   <img alt="Jsevilla" class="derecha_sinmarco" src="https://i.blogs.es/422e9b/jsevilla/450_1000.png">
   
      </div>
</div>
<p>Eso, explica, hace necesario tener baterías de pruebas estandarizadas que permitan que nos formemos una idea de sus competencias. Para este experto el benchmark ARC-AGI es mas representativo de esa otra visión, hacer un benchmark fácil para los humanos pero difícil para la IA.</p>
<!-- BREAK 11 --><p>Los modelos van mejorando en ARC-AGI, pero para él eso era algo obvio y que tenía que pasar. Con el suyo las pruebas son difíciles para unos y otros, y que los modelos avancen y sean cada vez mejores a la hora de resolver dichos problemas no es tan obvio.</p>
<p>Así, con FrontierMath quisieron "intentar medir si la IA puede resolver problemas genuinamente difíciles". Hasta ahora los problemas matemáicos a los que se sometía a los modelos de IA eran relativamente fáciles, así que los modelos "saturaban los benchmarks", es decir, pronto lograban superar todas esas pruebas y lograr un 100% de puntuación. &nbsp;"<strong>Va a ser un reto para la IA saturar este benchmark</strong>", destacaba.</p>
<!-- BREAK 12 --><p>Aquí ponía un ejemplo con el modelo o3-mini de OpenAI, que resuelve ya un 10% de FrontierMath. No es mucho, pero es brutal, asegura, y ya ha superado a matemáticos expertos como él mismo. Sin embargo, asegura,</p>
<blockquote>"Que la IA supere ciertos benchmarks no significa que pueda operar como un experto humano. Hay que ajustarlos porque están ajustados a escenarios muy concretos. Estamos midiendo esos limites de esa ia, y eso va a ser un proceso continuo".</blockquote>
<p>Para Sevilla hay un área especialmente importante en la que medir ese rendimiento: en el <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/killer-app-ia-no-hablarnos-big-tech-apuestan-agentes-ia-que-haran-cosas-nosotros" data-vars-post-title="La IA generativa parece estancada. Las Big Tech creen tener un as en la manga: &quot;agentes&quot; que hagan cosas por nosotros" data-vars-post-url="https://www.xataka.com/robotica-e-ia/killer-app-ia-no-hablarnos-big-tech-apuestan-agentes-ia-que-haran-cosas-nosotros">comportamiento agéntico de la IA</a>. En su capacidad de hacer trabajo remotamente y <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/operator-funciona-forma-distinta-mejor-a-otros-agentes-que-ven-nuestra-pantalla-su-secreto-cua" data-vars-post-title="Operator también &quot;mira&quot; a la pantalla y mueve tu ratón por ti como otros agentes IA. Lo hace mejor gracias a CUA" data-vars-post-url="https://www.xataka.com/robotica-e-ia/operator-funciona-forma-distinta-mejor-a-otros-agentes-que-ven-nuestra-pantalla-su-secreto-cua">de forma autónoma</a>. Aquí los ejemplos más claros de sistemas que logran esto son Computer Use, de Anthropic, y <a class="text-outboundlink" href="https://www.xataka.com/basics/que-operator-que-como-funciona-se-usa-como-se-contrata-cuanto-cuesta" data-vars-post-title="Qué es Operator: qué es, cómo funciona y se usa, cómo se contrata y cuánto cuesta " data-vars-post-url="https://www.xataka.com/basics/que-operator-que-como-funciona-se-usa-como-se-contrata-cuanto-cuesta">Operator</a>, de OpenAI.</p>
<!-- BREAK 13 --><div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/telefono-resuelveme-vida-agente-ia-anthropic-quiere-que-ia-cambie-nuestras-vidas-verdad" class="pivot-outboundlink" data-vars-post-title="&quot;Teléfono, resuélveme la vida&quot;: el agente IA de Anthropic quiere que la IA cambie nuestras vidas de verdad ">
     <img alt="&quot;Tel&#x00E9;fono,&#x20;resu&#x00E9;lveme&#x20;la&#x20;vida&quot;&#x3A;&#x20;el&#x20;agente&#x20;IA&#x20;de&#x20;Anthropic&#x20;quiere&#x20;que&#x20;la&#x20;IA&#x20;cambie&#x20;nuestras&#x20;vidas&#x20;de&#x20;verdad&#x20;" width="375" height="142" src="https://i.blogs.es/58278d/robot1/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/telefono-resuelveme-vida-agente-ia-anthropic-quiere-que-ia-cambie-nuestras-vidas-verdad" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="&quot;Teléfono, resuélveme la vida&quot;: el agente IA de Anthropic quiere que la IA cambie nuestras vidas de verdad ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/telefono-resuelveme-vida-agente-ia-anthropic-quiere-que-ia-cambie-nuestras-vidas-verdad" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="&quot;Teléfono, resuélveme la vida&quot;: el agente IA de Anthropic quiere que la IA cambie nuestras vidas de verdad ">&quot;Teléfono, resuélveme la vida&quot;: el agente IA de Anthropic quiere que la IA cambie nuestras vidas de verdad </a>
   </div>
  </div>
 </div>
</div>
<p>Aquí existe un benchmark especialmente destacable que es <a rel="noopener, noreferrer" href="https://os-world.github.io/">OSWorld</a>. Trata de medir si efectivamente estos agentes de IA pueden resolver tareas, aunque "de momento es muy básico", asegura Sevilla. Eso no importa, porque como señala, es la evolución habitual de estos desarrollos.</p>
<!-- BREAK 14 --><p>"El ciclo de benchmark al principio no resuelve nada" explica Sevilla. "Luego hay un punto en que empieza a hacer algo, y ahí entras en la parte lineal de la sigmoide, ahí ves mejoras relativamente predecibles, conforme los modelos escalan ves mejoras hasta que el benchmark se satura".</p>
<p>También le preguntamos por el debate sobre el escalado y si ahora mismo dedicar más dinero, más GPU y más datos a entrenar modelos de IA tiene sentido. En los últimos tiempos se habla de <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/gpt-4-5-no-mejor-que-sus-rivales-casi-nada-prueba-que-modelos-ia-tradicionales-casi-no-avanzan" data-vars-post-title="GPT-4.5 no es mejor que sus rivales en casi nada. Es la prueba de que los modelos de IA tradicionales ya casi no avanzan" data-vars-post-url="https://www.xataka.com/robotica-e-ia/gpt-4-5-no-mejor-que-sus-rivales-casi-nada-prueba-que-modelos-ia-tradicionales-casi-no-avanzan">cómo los modelos de IA ya no avanzan tanto aparentemente</a>, pero para él la estrategia de escalado sigue teniendo mucho sentido.</p>
<!-- BREAK 15 --><div class="article-asset-summary article-asset-normal article-asset-center">
 <div class="asset-content">
     <div class="sumario">"No tenemos suficientes evidencias que demuestren que las tendencias de escalado estén muertas. Si entrenas con más cómputo vas a obtener mejores resultados".</div>
   </div>
</div>
<p>"Siempre hemos asimilado que necesitamos dedicar muchísimos recursos para las mejoras", comentaba. Él y su equipo en Epoch AI han observado cómo la relación histórica entre recursos dedicados y mejora obtenida <strong>era "la que esperábamos"</strong>, aunque sí que indica que esa mejora "tal vez ha sido un poco decepcionante en modelos sin razonamiento", donde el avance no ha sido tan claro.</p>
<!-- BREAK 16 --><p>Si embargo, destaca, "<a class="text-outboundlink" href="https://www.xataka.com/inteligencia-artificial/unico-jugador-go-que-ha-conseguido-derrotar-vez-a-ia-google-se-retira-porque-no-puede-ser-derrotada" data-vars-post-title="El único jugador de Go que ha conseguido derrotar una vez a la IA de Google se retira porque &quot;no puede ser derrotada&quot;" data-vars-post-url="https://www.xataka.com/inteligencia-artificial/unico-jugador-go-que-ha-conseguido-derrotar-vez-a-ia-google-se-retira-porque-no-puede-ser-derrotada">Alphago</a> ya usaba más tiempo de inferencia, se veía que el razoiamiento funciona". En su opinión "no tenemos suficientes evidencias que demuestren que las tendencias de escalado estén muertas. Si entrenas con más cómputo vas a obtener mejores resultados", concluye.</p>
<h2>"La IA no piensa como nosotros"</h2>
<p>Si hay una cosa clara para este experto es que "es evidente que <strong>la IA no piensa como nosotros</strong>. Nos da mil vueltas en conocimientos de medicina o biología, por ejemplo, y está logrando avances notables en ámbitos como matemáticas o programación". Sin embargo, explica, "no es tan bueno <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/ia-claude-lleva-miles-horas-jugando-a-pokemon-se-ha-atascado-monte-selenite" data-vars-post-title="En Anthropic se han obsesionado con algo de apariencia trivial pero clave para la IA: que Claude se pase 'Pokémon'" data-vars-post-url="https://www.xataka.com/robotica-e-ia/ia-claude-lleva-miles-horas-jugando-a-pokemon-se-ha-atascado-monte-selenite">en jugar a Pokémon</a>, por ejemplo".</p>
<!-- BREAK 17 --><div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="" height=1080 width=1920 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/b76e11/benchmarks/450_1000.png 450w, https://i.blogs.es/b76e11/benchmarks/650_1200.png 681w,https://i.blogs.es/b76e11/benchmarks/1024_2000.png 1024w, https://i.blogs.es/b76e11/benchmarks/1366_2000.png 1366w" src="https://i.blogs.es/b76e11/benchmarks/450_1000.png" alt="Benchmarks">
   <img alt="Benchmarks" class="" src="https://i.blogs.es/b76e11/benchmarks/450_1000.png">
   
        <span>El rendimiento de la IA en problemas matemáticos avanzados sigue siendo bajo: o3-mini, el que mejor lo hace, solo resuelve el 11% de esos problemas. Fuente: Epoch AI.</span>
   </div>
   </div>
</div>
<p>Para Sevilla "lo que yo veo es que va avanzando en otras cosas. La comparativa con la inteligencia humana no es exacta porque los campos en los que la IA mejorará son campos en los que el ser humano no ha evolucionado. Creo que la IA mejorará mucho más rápido en matemáticas o ingenería que en robótica o control motriz, por ejemplo".</p>
<!-- BREAK 18 --><p>Sevilla citaba <a rel="noopener, noreferrer" href="https://arxiv.org/pdf/2503.14499">un estudio reciente de Metr</a> en el que se intentaba medir la capacidad de la IA en términos de la longitud de las tareas que la IA podía completar. Sus conclusiones revelaban cómo hay una tendencia clara que señala que <strong>los modelos de IA están mejorando de forma previsible</strong>.</p>
<div class="article-asset-image article-asset-large article-asset-center">
 <div class="asset-content">
                   <img class="" height=1186 width=2000 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/dd69c9/captura-de-pantalla-2025-04-07-a-las-10.12.51/450_1000.jpeg 450w, https://i.blogs.es/dd69c9/captura-de-pantalla-2025-04-07-a-las-10.12.51/650_1200.jpeg 681w,https://i.blogs.es/dd69c9/captura-de-pantalla-2025-04-07-a-las-10.12.51/1024_2000.jpeg 1024w, https://i.blogs.es/dd69c9/captura-de-pantalla-2025-04-07-a-las-10.12.51/1366_2000.jpeg 1366w" src="https://i.blogs.es/dd69c9/captura-de-pantalla-2025-04-07-a-las-10.12.51/450_1000.jpeg" alt="Captura De Pantalla 2025 04 07 A Las 10 12 51">
   <img alt="Captura De Pantalla 2025 04 07 A Las 10 12 51" class="" src="https://i.blogs.es/dd69c9/captura-de-pantalla-2025-04-07-a-las-10.12.51/450_1000.jpeg">
   
      </div>
</div>
<p>En esa gráfica del estudio de Metr se mide "la duración de las tareas (medida por el tiempo que tardan los profesionales humanos) que los agentes de IA pueden completar con un 50% de fiabilidad. Esa duración se ha duplicado aproximadamente cada 7 meses durante los últimos 6 años".</p>
<!-- BREAK 19 --><p>Y como señalan, "incluso si las mediciones absolutas se desvían en un factor de 10, la tendencia predice que en menos de una década veremos agentes de IA capaces de completar de forma independiente una gran parte de las tareas de software que actualmente llevan a los humanos días o semanas".</p>
<div class="article-asset-summary article-asset-small article-asset-left">
 <div class="asset-content">
     <p class="sumario_izquierda">"La IA no solo regurgita lo que ha aprendido durante el entrenamiento, sino que los combina de forma novedosa".</p>
   </div>
</div>
<p>Hay otro debate del que quisimos rescatar la opinión de Jaime Sevilla. Se trata de esa afirmación que también lleva tiempo discutiéndose: <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/frente-a-ia-que-dice-a-todo-preocupacion-asi-jamas-lograremos-crear-einstein-newton" data-vars-post-title="Tenemos un problema filosófico con las IA generativas: nos están dando la razón en todo lo que les pedimos" data-vars-post-url="https://www.xataka.com/robotica-e-ia/frente-a-ia-que-dice-a-todo-preocupacion-asi-jamas-lograremos-crear-einstein-newton">las IAs no generan nuevo conocimiento</a>, solo combinan todos los datos con las que que han sido entrenadas para "regurgitar" sus respuestas.</p>
<!-- BREAK 20 --><p>Sevilla reía al hablar sobre esto y nos preguntaba "<strong>¿qué creéis que es la inteligencia?</strong>" Para él eso es también lo que hacemos los seres humanos. De hecho, asegura, FrontierMath precisamente demuestra que la IA "no solo regurgita lo que ha aprendido durante el entrenamiento, sino que los combina de forma novedosa".</p>
<div class="article-asset-video article-asset-normal">
 <div class="asset-content">
  <div class="base-asset-video">
   <div class="js-dailymotion">
    <script type="application/json">
                          {"videoId":"x969fu0","autoplay":false,"title":"Orion", "tag":"orion", "duration":"15"}
                  </script>
   </div>
  </div>
 </div>
</div>
<p>Su conclusión era además muy optimista sobre el futuro de la IA. Al ritmo que está evolucionando y con los recursos que se están dedicando, su visión es clara: "entre gpt-2 y gpt-4 hay una diferencia de 10.000 veces más cómputo", y eso supuso una mejora de prestaciones extraordinaria entre ambos modelos.</p>
<!-- BREAK 21 --><p>Estamos siguiendo esa misma línea de recuros dedicados, así que según él "<strong>para final de la década estaremos viendo un salto similar</strong>" entre GPT-4 y lo que tengamos cuando acabe ese plazo". No habló específicamente de AGI, pero sí dejó claro que el avance va a ser igualmente espectacular. Y ahí estarán benchmarks como FrontierMath para mostrarnos ese salto.</p>
<p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/uno-pioneros-ia-ha-echado-vistazo-a-ia-generativa-actual-ha-llegado-a-conclusion-tontisima" data-vars-post-title="Uno de los pioneros de la IA ha echado un vistazo a la IA generativa actual y ha llegado a una conclusión: es tontísima" data-vars-post-url="https://www.xataka.com/robotica-e-ia/uno-pioneros-ia-ha-echado-vistazo-a-ia-generativa-actual-ha-llegado-a-conclusion-tontisima">Uno de los pioneros de la IA ha echado un vistazo a la IA generativa actual y ha llegado a una conclusión: es tontísima</a></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
                                <item>
                <title><![CDATA[El nuevo modelo de IA de Meta sacó muy buena puntuación en los benchmarks. Quizás demasiado buena]]></title>
                <link>https://www.xataka.com/robotica-e-ia/han-acusado-a-meta-hacer-trampas-benchmarks-llama-4-empresa-niega-dudas-persisten</link>
                <guid>https://www.xataka.com/robotica-e-ia/han-acusado-a-meta-hacer-trampas-benchmarks-llama-4-empresa-niega-dudas-persisten</guid>
                <pubDate>Tue, 08 Apr 2025 08:42:10 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/f90df7/meta-cheat/1024_2000.jpeg" alt="El&#x20;nuevo&#x20;modelo&#x20;de&#x20;IA&#x20;de&#x20;Meta&#x20;sac&#x00F3;&#x20;muy&#x20;buena&#x20;puntuaci&#x00F3;n&#x20;en&#x20;los&#x20;benchmarks.&#x20;Quiz&#x00E1;s&#x20;demasiado&#x20;buena">
    </p>
    <p>Llevábamos mucho tiempo esperando por la nueva familia Llama 4 de modelos de inteligencia artificial de Meta. El pasado fin de semana la empresa al fin desveló esos modelos y <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/meta-tiene-excelente-razon-para-lanzar-variante-gigantesca-llama-4-capacidad-especializacion" data-vars-post-title="Meta tiene una excelente razón para lanzar una variante gigantesca de Llama 4: la capacidad de especialización " data-vars-post-url="https://www.xataka.com/robotica-e-ia/meta-tiene-excelente-razon-para-lanzar-variante-gigantesca-llama-4-capacidad-especializacion">todo parecía prometedor</a>. El problema es que la forma de anunciarlos está generando cierta polémica y una incómoda conversación: la de que quizás han hecho trampas en los benchmarks.</p>
<!-- BREAK 1 --><p><strong>Llama 4 parece estupendo</strong>. Nada más aparecer en escena, los nuevos modelos Llama 4 Meta sorprendían por su excelente rendimiento en benchmarks. Se situaban en segundo lugar en el ranking <a rel="noopener, noreferrer" href="https://lmarena.ai/">LMArena</a>, solo por debajo de Gemini 2.5 Pro Experimental. Sin embargo pronto aparecieron las suspicacias, porque la versión de Llama 4 que está disponible para todos los públicos no era la misma que se mostraba en ese ranking.</p>
<div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">
     <img alt="Las&#x20;IA&#x20;se&#x20;est&#x00E1;n&#x20;volviendo&#x20;muy&#x20;listas.&#x20;Y&#x20;crear&#x20;pruebas&#x20;para&#x20;ponerlas&#x20;en&#x20;aprietos&#x20;est&#x00E1;&#x20;siendo&#x20;cada&#x20;vez&#x20;m&#x00E1;s&#x20;dif&#x00ED;cil&#x20;" width="375" height="142" src="https://i.blogs.es/3519a3/robot-examen/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil </a>
   </div>
  </div>
 </div>
</div>
<p><strong>¿Versión trucada?</strong> Como indicaban en el <a rel="noopener, noreferrer" href="https://ai.meta.com/blog/llama-4-multimodal-intelligence/">anuncio</a> de Meta, esa versión de Llama 4 era una "experimental" que obtuvo un ELO de <a rel="noopener, noreferrer" href="https://lmarena.ai/?gad_source=1&gclid=EAIaIQobChMIrfPssPrHjAMV2QYGAB3B8CuyEAAYASAAEgIRNPD_BwE">1.417 puntos en LMArena</a>, mientras que Gemini 2.5 Pro Experimental había obtenido 1.439 puntos. Algunos expertos apuntaron a que esa versión experimental de Llama 4 era una versión que hacía trampas y había sido entrenada específicamente con conjuntos de datos utilizados en benchmarks para poder puntuar bien en ellas.</p>
<!-- BREAK 2 --><p><strong>No hemos hecho trampas</strong>.Ahmad Al-Dahle es el máximo responsable de la división de IA generativa en Meta, y por tanto está al frente del lanzamiento de Llama 4. Este directivo <a rel="noopener, noreferrer" href="https://x.com/Ahmad_Al_Dahle/status/1909302532306092107">ha negado de forma tajante</a> los rumores que apuntan a que Meta habría hecho trampas para obtener mejor puntuaciones en los benchmarks. Dichos rumores "son falsos y nunca haríamos eso", ha destacado.</p>
<p><strong>Pero sí estaba "optimizada"</strong>. Como indican <a rel="noopener, noreferrer" href="https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/">en TechCrunch</a>, en ese anuncio oficial Meta sí apuntaba a que el modelo experimental de Llama 4 que había puntuado muy bien estaba "optimizado para la conversación". En LMArena <a rel="noopener, noreferrer" href="https://x.com/lmarena_ai/status/1909397817434816562">indicaron</a> que Meta debería haber explicado mejor qué tipo de modelo había enviado para incluir en el ranking.</p>
<!-- BREAK 3 --><p><strong>Igual Llama 4 no es tan bueno</strong>. Algunos expertos que <a rel="noopener, noreferrer" href="https://x.com/kimmonismus/status/1909245779136348590">analizaron</a> el rendimiento de Llama 4 con pruebas sintéticas o de forma convencional <a rel="noopener, noreferrer" href="https://x.com/zimmskal/status/1908638551048138798">ya avisaron</a> de que el rendimiento <a rel="noopener, noreferrer" href="https://x.com/ChaseBrowe32432/status/1908989296163299352">no parecía ser tan bueno</a> como afirman en Meta. El modelo disponible públicamente <a rel="noopener, noreferrer" href="https://x.com/TheXeophon/status/1908900306580074741">mostraba</a> un comportamiento que <a rel="noopener, noreferrer" href="https://simonwillison.net/2025/Apr/5/llama-4-notes/">no se ajustaba</a> a la calidad que apuntaba su puntuación en LMArena.</p>
<p><strong>No del todo consistente</strong>. El propio Al-Dahle confirmaba que algunos usuarios estaban viendo resultados de "calidad distinta" de Maverick y Scout, las dos versiones de Llama 4 disponibles, dependiendo del proveedor. "Esperamos que se tarde algunos días en que las implementaciones públicas se ajusten", y añadió que seguirían trabajando para corregir posibles errores.</p>
<!-- BREAK 4 --><div class="article-asset-video article-asset-normal">
 <div class="asset-content">
  <div class="base-asset-video">
   <div class="js-dailymotion">
    <script type="application/json">
                          {"videoId":"x8jpy2b","autoplay":false,"title":"¿Qué hay DETRÁS de IAs como CHATGPT, DALL-E o MIDJOURNEY? | INTELIGENCIA ARTIFICIAL", "tag":"Webedia-prod", "duration":"1173"}
                  </script>
   </div>
  </div>
 </div>
</div>
<p><strong>Un lanzamiento raro</strong>. Que Meta lanzara este modelo un sábado es extraño, pero al ser preguntado por ello Mark Zuckerberg <a rel="noopener, noreferrer" href="https://www.threads.net/@zuck/post/DIFAsupTS7Z">respondió</a> que "es cuando estuvo listo". Que además el modelo usado en LMArena no sea el mismo que la gente puede usar es también preocupante, y puede que comience a hacernos desconfiar de los benchmarks y de las empresas que los usan para promocionar sus productos. <a class="text-outboundlink" href="https://www.xataka.com/moviles/las-trampas-llegan-al-mundo-de-los-benchmarks-moviles-el-samsung-galaxy-s4-ya-las-hace" data-vars-post-title="Benchmarks móviles con truco: el Samsung Galaxy S4 optimiza su GPU en ciertos casos" data-vars-post-url="https://www.xataka.com/moviles/las-trampas-llegan-al-mundo-de-los-benchmarks-moviles-el-samsung-galaxy-s4-ya-las-hace">No es la primera vez</a> que <a class="text-outboundlink" href="https://www.xataka.com/moviles/algunos-android-estan-haciendo-trampas-benchmarks-preocupante-seria-no-hacerlas" data-vars-post-title="Algunos Android están haciendo trampas en benchmarks. Lo preocupante sería no hacerlas" data-vars-post-url="https://www.xataka.com/moviles/algunos-android-estan-haciendo-trampas-benchmarks-preocupante-seria-no-hacerlas">esto pasa</a> ni mucho menos, y no será la última.</p>
<!-- BREAK 5 --><p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/openai-esta-quemando-dinero-como-no-hubiera-manana-pregunta-cuanto-podra-aguantar-asi" data-vars-post-title="OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así " data-vars-post-url="https://www.xataka.com/robotica-e-ia/openai-esta-quemando-dinero-como-no-hubiera-manana-pregunta-cuanto-podra-aguantar-asi">OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así</a></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
                                <item>
                <title><![CDATA[Si la pregunta es si la IA es ya tan buena como la inteligencia humana, la respuesta es: resuelve este puzzle]]></title>
                <link>https://www.xataka.com/robotica-e-ia/arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi</link>
                <guid>https://www.xataka.com/robotica-e-ia/arc-agi-test-facil-para-humanos-durisimo-para-ias-pregunta-sirve-realmente-para-medir-hemos-llegado-a-agi</guid>
                <pubDate>Wed, 26 Mar 2025 08:30:00 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/45bc96/arc-agi-2/1024_2000.jpeg" alt="Si&#x20;la&#x20;pregunta&#x20;es&#x20;si&#x20;la&#x20;IA&#x20;es&#x20;ya&#x20;tan&#x20;buena&#x20;como&#x20;la&#x20;inteligencia&#x20;humana,&#x20;la&#x20;respuesta&#x20;es&#x3A;&#x20;resuelve&#x20;este&#x20;puzzle">
    </p>
    <p>La Arc Prize Foundation, una organización sin ánimo de lucro cofundada por el investigador en IA Francçois Chollet, <a rel="noopener, noreferrer" href="https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025">ha anunciado el lanzamiento de ARC-AGI-2</a>, un nuevo conjunto de pruebas que quieren servir para evaluar la capacidad de los modelos de IA de una forma singular. Y ahí está lo llamativo de estas pruebas.</p>
<!-- BREAK 1 --><p><strong>Cómo de cerca estamos de la AGI</strong>. Mientras que otros benchmarks miden lo bien que las IAs resuelven problemas matemáticos o de programación, las pruebas <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/fundador-uno-benchmarks-ia-prestigiosos-mundo-tiene-nueva-startup-objetivo-mente-iag" data-vars-post-title="El fundador de uno de los benchmarks de IA más prestigiosos del mundo tiene una nueva startup. Y un objetivo en mente: la IAG " data-vars-post-url="https://www.xataka.com/robotica-e-ia/fundador-uno-benchmarks-ia-prestigiosos-mundo-tiene-nueva-startup-objetivo-mente-iag">diseñadas por Chollet</a> y su equipo tratan de evaluar cómo de cerca estamos de una <a class="text-outboundlink" href="https://www.xataka.com/basics/que-inteligencia-artificial-general-agi-tecnologia-que-apunta-a-revolucionar-nuestro-mundo-completo" data-vars-post-title="Qué es la Inteligencia Artificial General (AGI), la tecnología que apunta a revolucionar nuestro mundo por completo" data-vars-post-url="https://www.xataka.com/basics/que-inteligencia-artificial-general-agi-tecnologia-que-apunta-a-revolucionar-nuestro-mundo-completo">Inteligencia Artificial General</a> (AGI). Y para ello hacen uso de pruebas que tratan de medir la capacidad de percepción de esos modelos, porque precisamente en ese ámbito es donde entra en juego una "vieja" paradoja.</p>
<div class="article-asset-image article-asset-normal article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="centro_sinmarco" height=675 width=1200 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/772ed1/arc2/450_1000.jpeg 450w, https://i.blogs.es/772ed1/arc2/650_1200.jpeg 681w,https://i.blogs.es/772ed1/arc2/1024_2000.jpeg 1024w, https://i.blogs.es/772ed1/arc2/1366_2000.jpeg 1366w" src="https://i.blogs.es/772ed1/arc2/450_1000.jpeg" alt="Arc2">
   <img alt="Arc2" class="centro_sinmarco" src="https://i.blogs.es/772ed1/arc2/450_1000.jpeg">
   
        <span>Con ARC-AGI-2 los modelos que antes lograban resolver gran parte de los problemas ahora se atascan, y la métrica de la eficiencia (coste) es una de las claves.</span>
   </div>
   </div>
</div>
<p><strong>La paradoja de Moravec</strong>. En 1988 el ingeniero austríaco Hans Moravec enunció la que <a class="text-outboundlink" href="https://www.xataka.com/inteligencia-artificial/paradoja-moravec-que-inteligencia-artificial-hace-facil-dificil-viceversa" data-vars-post-title="La paradoja de Moravec: por qué la inteligencia artificial hace fácil lo difícil (y viceversa)" data-vars-post-url="https://www.xataka.com/inteligencia-artificial/paradoja-moravec-que-inteligencia-artificial-hace-facil-dificil-viceversa">se convertiría en la paradoja que lleva su nombre</a>. La inteligencia artificial es capaz de hacer fácil lo difícil, pero también hace difícil lo que para los humanos es fácil. Eso se demuestra en la actualidad con una prueba muy sencilla: pon a un modelo de IA generativa como <a class="text-outboundlink" href="https://www.xataka.com/basics/chatgpt-que-como-usarlo-que-puedes-hacer-este-chat-inteligencia-artificial" data-vars-post-title="ChatGPT: qué es, cómo usarlo y qué puedes hacer con este chat de inteligencia artificial GPT" data-vars-post-url="https://www.xataka.com/basics/chatgpt-que-como-usarlo-que-puedes-hacer-este-chat-inteligencia-artificial">ChatGPT</a>, Claude, <a class="text-outboundlink" href="https://www.xataka.com/basics/deepseek-que-como-funciona-que-opciones-tiene-esta-inteligencia-artificial" data-vars-post-title="DeepSeek: qué es, cómo funciona y qué opciones tiene esta inteligencia artificial" data-vars-post-url="https://www.xataka.com/basics/deepseek-que-como-funciona-que-opciones-tiene-esta-inteligencia-artificial">DeepSeek</a> o Gemini a <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/he-probado-deepseek-v3-chat-deepseek-r1-razonamiento-openai-google-meta-tienen-aqui-rivales-formidables" data-vars-post-title="He probado DeepSeek en la web y en mi Mac. ChatGPT, Claude y Gemini tienen un problemón" data-vars-post-url="https://www.xataka.com/robotica-e-ia/he-probado-deepseek-v3-chat-deepseek-r1-razonamiento-openai-google-meta-tienen-aqui-rivales-formidables">contar erres</a> y lo pasará fatal.</p>
<!-- BREAK 2 --><p><strong>¿Qué mide ARC-AGI?</strong> La idea tras las pruebas ARC-AGI es la de medir la capacidad de los sistemas de IA para generalizar, aprender y adaptarse a problemas completamente nuevos y de los que no se conoce la respuesta. Hay mucho enfoque en la <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/dentro-de-la-habitacion-china-algun-dia-sabremos-si-las-maquinas-piensan" data-vars-post-title="Dentro de la habitación china: ¿algún día sabremos si las máquinas piensan?" data-vars-post-url="https://www.xataka.com/robotica-e-ia/dentro-de-la-habitacion-china-algun-dia-sabremos-si-las-maquinas-piensan">capacidad de razonamiento abstracto</a> con puzzles visuales en los que la IA debe observar patrones en cuadrículas de colores y generar soluciones basadas en esos patrones. Además estas pruebas permiten saber si la IA puede resolver problemas para los que no ha sido entrenada, y también si puede generalizar extrayendo reglas subyacentes a partir de ejemplos simples para luego aplicarlas a nuevas situaciones.</p>
<div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">
     <img alt="Tenemos&#x20;un&#x20;problema&#x20;con&#x20;la&#x20;IA&#x3A;&#x20;no&#x20;hay&#x20;forma&#x20;fiable&#x20;de&#x20;saber&#x20;si&#x20;ChatGPT&#x20;es&#x20;mejor&#x20;que&#x20;Gemini,&#x20;Copilot&#x20;o&#x20;Claude&#x20;" width="375" height="142" src="https://i.blogs.es/24c593/robots-luchando-2/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude ">Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude </a>
   </div>
  </div>
 </div>
</div>
<p><strong>No vale memorizarlo todo</strong>. En otros tipos de benchmarks la IA tiene la ventaja de que "<a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/ia-nuestra-mejor-aliada-para-resolver-problemas-matematicos-que-parecen-imposibles" data-vars-post-title="La IA ya es nuestra mejor aliada para resolver los problemas matemáticos que parecen imposibles" data-vars-post-url="https://www.xataka.com/robotica-e-ia/ia-nuestra-mejor-aliada-para-resolver-problemas-matematicos-que-parecen-imposibles">se sabe todo el temario de memoria</a>", y solo necesita aplicar lo que sabe dando respuestas que incluso puede llegar a tener memorizadas. El objetivo aquí es razonar y extrapolar como lo haría un humano, y de ahí ese foco en evaluar si estamos cerca de una AGI porque si lo estamos será capaz de razonar como nosotros. Eso sí: que una IA supere esta prueba no significa necesariamente que haya alcanzado la AGI.</p>
<!-- BREAK 3 --><div class="article-asset-image article-asset-normal article-asset-center">
 <div class="asset-content">
     <div class="caption-img ">
                   <img class="centro_sinmarco" height=2004 width=2522 loading="lazy" decoding="async" sizes="100vw" fetchpriority="high" srcset="https://i.blogs.es/229600/captura-de-pantalla-2025-03-26-a-las-8.50.41/450_1000.jpeg 450w, https://i.blogs.es/229600/captura-de-pantalla-2025-03-26-a-las-8.50.41/650_1200.jpeg 681w,https://i.blogs.es/229600/captura-de-pantalla-2025-03-26-a-las-8.50.41/1024_2000.jpeg 1024w, https://i.blogs.es/229600/captura-de-pantalla-2025-03-26-a-las-8.50.41/1366_2000.jpeg 1366w" src="https://i.blogs.es/229600/captura-de-pantalla-2025-03-26-a-las-8.50.41/450_1000.jpeg" alt="Captura De Pantalla 2025 03 26 A Las 8 50 41">
   <img alt="Captura De Pantalla 2025 03 26 A Las 8 50 41" class="centro_sinmarco" src="https://i.blogs.es/229600/captura-de-pantalla-2025-03-26-a-las-8.50.41/450_1000.jpeg">
   
        <span>Este es uno de los puzzles visuales que deben resolver los modelos de IA, pero para esos modelos el problema es complejísimo. Para los humanos, no tanto. Intentadlo ;)</span>
   </div>
   </div>
</div>
<p><strong>ARC-AGI-1 sirvió durante un tiempo</strong>. Los modelos de IA de principios de 2024 se estrellaban con la primera versión de ARC-AGI, pero a finales de año aparecieron modelos de razonamiento y la cosa se puso interesante. El modelo o1-mini de OpenAI lograba superar el 7,80% de las pruebas, pero o3-low logró el 76% y o3-high, aun siendo carísimo, demostró llegar al 87,5%. Las máquinas estaban a punto de pasar de nivel, y hacía falta una revisión de las pruebas.</p>
<!-- BREAK 4 --><p><strong>ARC-AGI-2 pone las cosas mucho más difíciles para la IA</strong>. Las nuevas pruebas consisten también en problemas similares a puzzles visuales que hacen que las IAs tengan que identificar patrones visuales. Los modelos de razonamiento como o1-pro y DeepSeek R1 apenas superan el 1,3% de ARC-AGI-2, y los modelos no-razonadores (GPT-4.5, Claude 3.7, Gemini 2.0 Flash) no pasan del 1%. Y o3-low, que en la primera versión de ARC-AGI lograba casi un 76% de las respuestas, apenas llega al 4% en ARC-AGI-2 y lograrlo cuesta 200 dólares por tarea. Lo curioso es que de media los seres humanos logran acertar el 60% de las preguntas, mucho más que cualquiera de los modelos actuales. Podéis "jugar" a intentar resolver esas pruebas <a rel="noopener, noreferrer" href="https://arcprize.org/play?task=1ae2feb7">en el sitio web del proyecto</a>. Os aseguramos que son puzzles singulares y que desde luego os harán pensar un poco.</p>
<div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">
     <img alt="Las&#x20;IA&#x20;se&#x20;est&#x00E1;n&#x20;volviendo&#x20;muy&#x20;listas.&#x20;Y&#x20;crear&#x20;pruebas&#x20;para&#x20;ponerlas&#x20;en&#x20;aprietos&#x20;est&#x00E1;&#x20;siendo&#x20;cada&#x20;vez&#x20;m&#x00E1;s&#x20;dif&#x00ED;cil&#x20;" width="375" height="142" src="https://i.blogs.es/3519a3/robot-examen/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil </a>
   </div>
  </div>
 </div>
</div>
<p><strong>De fuerza bruta, nada</strong>. En el anuncio los responsables de este benchmark explican que los modelos no pueden ahora recurrir a la fuerza bruta para encontrar soluciones, algo que era un pequeño problema en ARC-AGI-1. Para evitarlo se introduce la nueva métrica de eficiencia, que requiere que los modelos interpreten lo que ven en tiempo real, que "perciban", no que respondan en base a la memorización.</p>
<!-- BREAK 5 --><p><strong>Los modelos de IA deben esforzarse más</strong>. Mike Knoop, uno de los responsables del desarrollo de estas pruebas, explicaba cómo ARC-AGI-2 es "el único benchmark que sigue sin haber sido superado por los modelos de IA pero que sigue siendo fácil para los humanos". En las nuevas pruebas se ve según él cómo los modelos de IA no asignan la semánica a estos puzzles —algo que los humanos hacemos de forma intuitiva— y lo pasan mal si tienen que aplicar simultáneamente varias reglas para resolver el problema.</p>
<div class="article-asset-video article-asset-normal">
 <div class="asset-content">
  <div class="base-asset-video">
   <div class="js-dailymotion">
    <script type="application/json">
                          {"videoId":"x9gt3cu","autoplay":false,"title":"La paradoja de Moravec en Inteligencia Artificial así es hacer IA hoy   Captcha 1x03", "tag":"IA", "duration":"3485"}
                  </script>
   </div>
  </div>
 </div>
</div>
<p><strong>Pros y contras de ARC-AGI</strong>. Estas pruebas son desde luego un enfoque singular que permite tratar de evaluar un aspecto de los actuales modelos de IA que otras pruebas no miden, pero hay un peligro aquí: que quienes desarrollan estos modelos los "truquen" o personalicen para enfocarlos a resolver precisamente este tipo de puzzles visuales aunque luego en otros tipos de generalización los modelos fracasen. Aun así representan una forma llamativa de influir en el desarrollo de nuevos modelos de IA, y una que además es interesante. Basta de IAs sabelotodo: lo que queremos son IAs que razonen como lo hacemos los seres humanos y se adapten a situaciones y problemas completamente nuevos.</p>
<!-- BREAK 6 --><p><strong>Necesitamos IAs que pregunten cosas que nadie había preguntado</strong>. La conversación sobre la IA en los últimos tiempos plantea un dilema: las IAs tienen todas las respuestas para problemas sencillos, <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/frente-a-ia-que-dice-a-todo-preocupacion-asi-jamas-lograremos-crear-einstein-newton" data-vars-post-title="Tenemos un problema filosófico con las IA generativas: nos están dando la razón en todo lo que les pedimos" data-vars-post-url="https://www.xataka.com/robotica-e-ia/frente-a-ia-que-dice-a-todo-preocupacion-asi-jamas-lograremos-crear-einstein-newton">pero no se preguntan cosas que nadie había pensado</a>. Los críticos de los actuales modelos destacan cómo las IAs no generan nuevo conocimiento —no descubren nuevos medicamentos, nuevos materiales o la solución para la fusión nuclear— sino que se limitan a combinar lo que ya sabemos para tratar de abrir nuevos caminos. Eso puede ayudar a los investigadores humanos, pero no es ni mucho menos lo que se espera de la gran revolución de la IA.</p>
<p>Imagen | <a rel="noopener, noreferrer" href="https://unsplash.com/es/fotos/una-persona-sosteniendo-un-cubo-3044jR8D8Wo">Joshua Hoehne</a></p>
<p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/espana-multara-a-quien-no-etiquete-contenidos-generados-ia-reto-tecnico-regulatorio-colosal" data-vars-post-title="El Gobierno de España quiere que todo el contenido IA lleve una &quot;etiqueta&quot;. Suena muy bien, pero es un reto tremendo" data-vars-post-url="https://www.xataka.com/robotica-e-ia/espana-multara-a-quien-no-etiquete-contenidos-generados-ia-reto-tecnico-regulatorio-colosal">El Gobierno de España quiere que todo el contenido IA lleve una "etiqueta". Suena muy bien, pero es un reto tremendo</a></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
                                <item>
                <title><![CDATA[El fundador de uno de los benchmarks de IA más prestigiosos del mundo tiene una nueva startup. Y un objetivo en mente: la IAG ]]></title>
                <link>https://www.xataka.com/robotica-e-ia/fundador-uno-benchmarks-ia-prestigiosos-mundo-tiene-nueva-startup-objetivo-mente-iag</link>
                <guid>https://www.xataka.com/robotica-e-ia/fundador-uno-benchmarks-ia-prestigiosos-mundo-tiene-nueva-startup-objetivo-mente-iag</guid>
                <pubDate>Thu, 16 Jan 2025 16:01:31 +0000</pubDate>
                                         <dc:creator>Javier Pastor</dc:creator>
                                       <description>
                    <![CDATA[
                              <p>
      <img src="https://i.blogs.es/aa48c0/chollet-1/1024_2000.jpeg" alt="El&#x20;fundador&#x20;de&#x20;uno&#x20;de&#x20;los&#x20;benchmarks&#x20;de&#x20;IA&#x20;m&#x00E1;s&#x20;prestigiosos&#x20;del&#x20;mundo&#x20;tiene&#x20;una&#x20;nueva&#x20;startup.&#x20;Y&#x20;un&#x20;objetivo&#x20;en&#x20;mente&#x3A;&#x20;la&#x20;IAG&#x20;">
    </p>
    <p>No falla. Si algún experto en IA comienza a ganar cierta popularidad, decide montárselo por su cuenta. Ocurrió con <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/nueva-empresa-ilya-sutskever-tiene-objetivo-claro-crear-superinteligencia-seguridad-nuclear" data-vars-post-title="La nueva empresa de Ilya Sutskever tiene un objetivo claro: crear una superinteligencia con seguridad &quot;nuclear&quot;" data-vars-post-url="https://www.xataka.com/robotica-e-ia/nueva-empresa-ilya-sutskever-tiene-objetivo-claro-crear-superinteligencia-seguridad-nuclear">Ilya Sutskever</a> o con <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/mira-murati-prepara-ronda-100-millones-dolares-para-su-startup-ia-ese-dinero-no-garantiza-nada" data-vars-post-title="La nueva startup IA de Mira Murati se prepara para levantar 100 millones de dólares. La gran pregunta es para qué" data-vars-post-url="https://www.xataka.com/robotica-e-ia/mira-murati-prepara-ronda-100-millones-dolares-para-su-startup-ia-ese-dinero-no-garantiza-nada">Mira Murati</a>, ambos exdirectivos de OpenAI, y ahora ha ocurrido con otro experto de IA que estaba ganando más y más fama.</p>
<!-- BREAK 1 --><p><strong>François Chollet</strong>. Este investigador es muy conocido por crear en 2019 el benchmark <a rel="noopener, noreferrer" href="https://arcprize.org/blog/oai-o3-pub-breakthrough">ARC-AGI</a>, un conjunto de pruebas que ponen al límite las capacidades de los modelos de IA más avanzados. De hecho la idea es tratar de establecer si una IA puede acabar siendo considerado como <a class="text-outboundlink" href="https://www.xataka.com/basics/que-inteligencia-artificial-general-agi-tecnologia-que-apunta-a-revolucionar-nuestro-mundo-completo" data-vars-post-title="Qué es la Inteligencia Artificial General (AGI), la tecnología que apunta a revolucionar nuestro mundo por completo" data-vars-post-url="https://www.xataka.com/basics/que-inteligencia-artificial-general-agi-tecnologia-que-apunta-a-revolucionar-nuestro-mundo-completo">una inteligencia artificial general</a>, algo que debería hacer cualquier modelo que supere estas pruebas. Este investigador anunció en noviembre que <a rel="noopener, noreferrer" href="https://x.com/fchollet/status/1857012265024696494">dejaba Google</a> tras una década trabajando allí y donde desarrolló <a rel="noopener, noreferrer" href="https://keras.io/keras_hub/">Keras</a>, una API Open Source para crear modelos de IA.</p>
<div class="article-asset article-asset-normal article-asset-center">
 <div class="desvio-container">
  <div class="desvio">
   <div class="desvio-figure js-desvio-figure">
    <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">
     <img alt="Las&#x20;IA&#x20;se&#x20;est&#x00E1;n&#x20;volviendo&#x20;muy&#x20;listas.&#x20;Y&#x20;crear&#x20;pruebas&#x20;para&#x20;ponerlas&#x20;en&#x20;aprietos&#x20;est&#x00E1;&#x20;siendo&#x20;cada&#x20;vez&#x20;m&#x00E1;s&#x20;dif&#x00ED;cil&#x20;" width="375" height="142" src="https://i.blogs.es/3519a3/robot-examen/375_142.jpeg">
    </a>
   </div>
   <div class="desvio-summary">
    <div class="desvio-taxonomy js-desvio-taxonomy">
     <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">En Xataka</a>
    </div>
    <a href="https://www.xataka.com/robotica-e-ia/ia-se-estan-volviendo-muy-listas-crear-pruebas-para-ponerlas-aprietos-esta-siendo-cada-vez-dificil" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil ">Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil </a>
   </div>
  </div>
 </div>
</div>
<p><strong>Una nueva aventura llamada Ndea</strong>. Chollet de hecho lanzó una ONG junto a Mike Knoop —cofundador de Zapier— llamada The ARC Prize bajo la cual se gestiona y desarrolla ese benchmark. Sin embargo ahora ambos acaban de anunciar el lanzamiento de <a rel="noopener, noreferrer" href="https://ndea.com/">Ndea</a>, con la cual quieren "desarrollar y operacionalizar" una AGI, como señalan <a rel="noopener, noreferrer" href="https://techcrunch.com/2025/01/15/ai-researcher-francois-chollet-founds-a-new-ai-lab-focused-on-agi/">en TechCrunch</a>.</p>
<!-- BREAK 2 --><p><strong>Quién es Mike Knoop</strong>. El otro cofundador de Ndea, Mike Knoop, fue uno de los responsables de Zapier en 2011. Esta empresa se ha convertido en una de los referentes a la hora de proporcionar automatizaciones para aplicaciones web. También se ha unido a Chollet previamente en la fundación de ARC Prize Foundation, para financiar el desarrollo del benchmark. Knoop ha dejado su trabajo en Zapier —aunque se mantendrá en el consejo de administración— para centrarse totalmente en Ndea.</p>
<p><strong>Persiguiendo el santo grial de la AGI</strong>. El objetivo de Ndea es el mismo que persiguen el resto de grandes tecnológicas y startups de IA. Lo hacen OpenAI, Microsoft o Meta, pero también startups como las creadas por Sutskever, Murati o ahora Chollet y Knoop. Cada una parece plantear su propia estrategia —<a rel="noopener, noreferrer" href="https://x.com/fchollet/status/1879583863368032432">también Chollet</a>—, pero lo cierto es que un objetivo perfecto. Muy aspiracional —lo que atrae expectación e inversión— pero que las empresas, por mucho que lo digan, no pueden asegurar que acabarán alcanzándolo.</p>
<!-- BREAK 3 --><p><strong>Su estrategia</strong>. "Creemos que tenemos una posibilidad pequeña pero real de lograr un descubrimiento revolucionaro creando una IA que puede aprender al menos de forma tan eficiente como la gente, y que puede mantener esa mejora a lo largo del tiempo sin cuellos de botella a la vista", explicaba Chollet. Para ello usarán una técnica llamada síntesis de programas, con la que la IA puede generalizar problemas desconocidos para ella.</p>
<div class="article-asset-video article-asset-normal">
 <div class="asset-content">
  <div class="base-asset-video">
   <div class="js-dailymotion">
    <script type="application/json">
                          {"videoId":"x8komlg","autoplay":false,"title":"Chat GPT VS Google Bard VS Bing  - Comparativa | LA GUERRA DE LAS MÁQUINAS", "tag":"webedia-prod", "duration":"442"}
                  </script>
   </div>
  </div>
 </div>
</div>
<p><strong>Financiación desconocida</strong>. No hay datos ni se ha desvelado si la startup ha recibido ya algún apoyo financiero por parte de inversores. Lo que sí ha dejado claro Chollet es que están buscando talento en este ámbito para reforzar el equipo de desarrollo, algo que apoya la teoría de que cuentan con algún tipo de respaldo económico.</p>
<!-- BREAK 4 --><p>En Xataka | <a class="text-outboundlink" href="https://www.xataka.com/robotica-e-ia/o3-promete-salto-brutal-respecto-a-ia-actual-eso-justo-que-openai-necesita" data-vars-post-title="o3 puntúa tan alto como programadores humanos en un de razonamiento y abstracción. Es justo lo que OpenAI necesita" data-vars-post-url="https://www.xataka.com/robotica-e-ia/o3-promete-salto-brutal-respecto-a-ia-actual-eso-justo-que-openai-necesita">o3 puntúa tan alto como programadores humanos en un de razonamiento y abstracción. Es justo lo que OpenAI necesita</a></p>
<script>
 (function() {
  window._JS_MODULES = window._JS_MODULES || {};
  var headElement = document.getElementsByTagName('head')[0];
  if (_JS_MODULES.instagram) {
   var instagramScript = document.createElement('script');
   instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js';
   instagramScript.async = true;
   instagramScript.defer = true;
   headElement.appendChild(instagramScript);
  }
 })();
</script>

                    ]]>
                </description>
            </item>
            </channel>
</rss>
