Meta vuelve a la carrera de la IA con Muse Spark con un reto colosal: demostrar que no la ha perdido definitivamente

  • El primer modelo del Meta Superintelligence Labs llega con resultados prometedores en los benchmarks competitivos

  • Hay una apuesta clara por la capacidad multimodal, la eficiencia y la salud

  • Y un giro estratégico que abandona la filosofía que hizo a Meta relevante en la comunidad de desarrolladores

Meta
Sin comentarios Facebook Twitter Flipboard E-mail
javier-pastor

Javier Pastor

Editor Senior - Tech
javier-pastor

Javier Pastor

Editor Senior - Tech

Hace nueve meses Meta fichó a Alexandr Wang, el fundador de Scale AI, tras gastar 14.300 millones de dólares en ese movimiento. Zuckerberg le encargó reconstruir desde cero la estrategia de IA de la compañía, y hoy esos esfuerzos tienen el primer resultado: Muse Spark, el primer modelo de la división Meta SuperInteligence Labs. Estamos ante el primer lanzamiento de un modelo fundacional de Meta desde que lanzaran Llama 4 en abril de 2025. El objetivo de Muse Spark es volver a colocar a Meta en la carrera por la IA. La pregunta es, por supuesto, si este modelo logrará competir con unos rivales cada vez más excepcionales. Importante: ya podéis probarlo en meta.ai.

Bienvenido a la carrera, Muse Spark. En Meta afirman que han reescrito y reconstruido toda la arquitectura de su proyecto de IA desde cero y lo que han logrado es algo prometedor: una mejora de eficiencia que si se confirma sería extraordinaria. El modelo, afirman sus responsables, alcanza es muy superior a Llama 4 Maverick, y lo logra usando 10 veces menos capacidad de computación que aquel último modelo fundacional.

Muse La tabla con los resultados de los benchmarks revela que Muse Sparkl compite de tú a tú con Opus 4.6, Gemini 3.1 Pro y GPT 5.4. Fuente: Meta.

Dónde compiten y dónde no. Los benchmarks publicados por Meta sitúan a Muse Spark en una posición competitiva pero no dominante. Destaca especialmente en razonamiento multimodal, donde supera a Claude Opus 4.6 y a OpenAI GPT-5.4, y también es fuerte en salud. Donde no se comporta tan bien es en dos apartados importantes. Una, pensamiento abstracto: flojea en el test ARC-AGI 2 frente a sus competidores. La otra, más llamativa, la programación agéntica, que es el campo que más dinero mueve ahora mismo, y en el que su rendimiento es decente pero parece estar por debajo de sus competidores. Artificial Analysis, que publica una clasificación general de modelos de IA teniendo en cuenta todos estos benchmarks, lo sitúa en cuarto lugar por detrás de Gemini 3.1 Pro, GPT-5.4 y Claude Opus 4.6. 

Pero recordemos algo importante: una cosa son los benchmarks y otra muy distinta cómo se comportan estos modelos en cada escenario y para cada usuario. La percepción personal es mucho más importante que esos datos sintéticos.

Contem El modo contemplativo está diseñado para "pensamiento profundo", y aquí compite de tú a tú con modos análogos de sus competidores. Fuente: Meta.

El "modo contemplativo". Tanto en el anuncio oficial como en el hilo de Alexandr Wang destacaban una novedad de este modelo a la que han llamado "modo contemplativo", que según Wang "orquesta múltiples agentes que razonan en paralelo y que está diseñado para peticiones complejas en el ámbito científico y de razonamiento. En nuestras pruebas descubrimos que compite con otros modelos de razonamiento extremo como Gemini Deep Think o GPT Pro". 

Pero el modo contemplativo no va de pensar más, sino de pensar en paralelo. El diseño del modo contemplativo es elegante y vale la pena entenderlo. El enfoque estándar para mejorar el razonamiento de un modelo en inferencia es darle más tiempo para pensar: el modelo genera más tokens internos antes de responder, lo que mejora la calidad pero aumenta la latencia para el usuario (es decir, el tiempo que tarda en darnos una respuesta). Muse Spark propone una alternativa: en lugar de un agente pensando más, múltiples agentes pensando simultáneamente y colaborando. 

Captura De Pantalla 2026 04 09 A Las 8 50 17

El gráfico de latencia que publicó Meta lo ilustra con claridad: con 16 agentes en paralelo se alcanza casi el 59% de precisión en Humanity's Last Exam con una latencia comparable a la de un solo agente en modo extendido. Es como la diferencia entre un solo experto trabajando horas extra y un comité de expertos deliberando al mismo tiempo. El resultado no solo es mejor, llega antes. Eso importa especialmente en casos de uso donde el usuario no puede esperar minutos por una respuesta.

Cuidado con las trampas. El lanzamiento de Llama 4 hace un año se convirtió en un fracaso absoluto cuando se descubrió que los extraordinarios resultados de los benchmarks de este modelo tenían trampa. La versión que consiguió esas magníficas puntuaciones había sido diseñada y entrenada específicamente para puntuar bien en los benchmarks. Es de esperar que Meta haya aprendido la lección, pero ya han aparecido las primeras suspicacias. François Chollet, creador del benchmark ARC-AGI, ha comentado que Muse Spark "ya parece una decepción: sobreoptimizado para números de benchmarks públicos en detrimento de todo lo demás. Saber cómo evaluar modelos de manera que se correlacione con la utilidad real es una competencia central para los laboratorios de IA, y cualquier laboratorio nuevo tiene pocas probabilidades de tener éxito sin resolver primero eso".

Hasta luego Open Source, hola modelo propietario. Meta ya había avisado, así que no es una sorpresa descubrir que al menos de momento Muse Spark es un modelo cerrado y propietario. La familia de modelos de pesos abiertos Llama convirtió a Meta en la empresa que "democratizaba la IA" mientras OpenAI y Anthropic mantenían sus moedlos cerrados. Eso generó una comunidad enorme de desarrolladores, investigadores y empresas que creaban modelos a partir de los de Meta, pero Muse Spark rompe con esa filosofía. La empresa afirma que quizás publique versiones de pesos abiertos de Muse Spark en el futuro, pero no se compromete a nada. El conocido divulgador de IA Ethan Mollick destacaba que "sin pesos abiertos, es mucho más difícil predecir el valor de Spark".

La "superinteligencia personal". Meta ha creado Muse Spark con otro elemento diferencial: la hiperpersonalización. Imagina que tienes un asistente personal que conoce tu nombre y tu historial de compras porque te registraste en el servicio. Ahora imagina a otro asistente que ha leído diez años de tus conversaciones con amigos, sabe qué humor te hace gracia, conoce los temas que te generan ansiedad, entiende tu red social, ha visto las fotos que has compartido  yconoce los artículos que te han gustado o qué contenidos  consumes. 

La diferencia aquí es obvia: Meta ha usado toda esa información que tiene de ti gracias a todo lo que has publicado en sus plataformas (WhatsApp, Instagram, Facebook), y Muse Spark es el primer modelo diseñado para explotar esa ventaja de forma nativa. La empresa no parece tener problema alguno en admitir que usa esos datos que ha recolectado precisamente para esto: veremos cómo sale esa jugada, porque aunque el concepto sea potente, también puede ser cuestionado por esa teórica invasión de la privacidad. De momento ya hay un primer ejemplo de este uso: Zuckerberg está usando esa IA personal en su día a día.

Esto no va de programar mejor, sino de infiltrarse en tu WhatsApp. La apuesta estratégica de Meta con Muse Spark no es ser el mejor modelo para programar o para encontrar vacunas contra el cáncer. El objetivo es convertirse en esa citada IA hiperpersonalizada de 3.000 millones de usuarios que ya usan sus plataformas. Los casos de uso en los que se ha centrado Muse Spark son llamativos y se apartan de esa otra carrera de las IAs de Silicon Valley, y tratarán de ayudar a los usuarios en situaciones cotidianas permitiendo que:

  • Saques una foto de tu comida y obtengas un análisis nutricional
  • Hagas ejercicio y te diga qué músculos has activado
  • Subas una imagen de un juego y cree un pequeño juego interactivo con ella
  • Resuelvas problemas domésticos a partir de anotaciones visuales y de voz
  • Tengas información de mayor calidad sobre tu salud gracias al trabajo de Meta con 1.000 médicos que han contribuido a mejorar el razonamiento en este apartado

La seguridad por bandera. El debate sobre la potencia de estos modelos y su impacto en la seguridad es cada vez mayor, como ha demostrado Claude Mythos. En Meta han contratado una consultoría independiente, y según sus concluiones Muse Spark tiene la tasa más alta de "conciencia de evaluación" de todos los modelos que han analizado. El modelo de hecho identifica con frecuencia que está siendo evaluado y llega a la conclusión de que debe comportarse de forma honesta y "sin trampas". 

Captura De Pantalla 2026 04 09 A Las 9 12 08

No se hallaron evidencias de que esa conciencia afectara al comportamiento en ámbitos peligrosos, y  en pruebas internas indicaron que por ejemplo rechaza asistir en el desarrollo de armas bioquímicas en  el 98% de los casos, por delante del 95,4% de Opus 4.6 o los inquietantes 74,7% de GPT 5.4 o 61,5% de Gemini 3.1 Pro.

Meta vuelve a la carrera, pero ¿será Muse Spark suficiente? Hemos esperado nueve meses a saber en qué estaba trabajando la nueva división de superinteligencia de Meta y por fin tenemos el resultado de ese trabajo. La recepción en los mercados ha sido muy positiva y las acciones de Meta subieron un 6,5% tras el anuncio, pero cuidado:Muse Spark no supera a sus competidores en rendimiento, y tendrá que demostrar que esa diferenciación (eficiencia, hiperespecialización) acaba siendo la llave para devolver a Meta definitivamente a una carrera extraordinariamente competivia. El tiempo dirá.

En Xataka | OpenAI y Anthropic se han propuesto lo imposible: perder 85.000 millones de dólares en un año y sobrevivir




Inicio