La startup china Moonshot AI ha lanzado un agente de IA de programación que compite directamente con Claude Code y Codex
Es Open Source y usarlo con su modelo de IA Kimi hace que su precio sea muy inferior al binomio Claude Code/Opus
Cuenta con los llamativos "enjambres de agentes" para multiplicar el rendimiento, pero aun así la comparación tiene sus luces y sus sombras
Hace unos días, la empresa china Moonshot AI lanzaba Kimi K2.6, su nuevo LLM que compite con las familias de modelos de Gemini, GPT y Claude y que además es especialmente competitivo en precio. Semanas antes había lanzado Kimi Code, un agente de IA de programación que a su vez compite con Gemini Cli, Codex y Claude Code. La pregunta es obvia: ¿puede realmente competir el binomio Kimi Code/Kimi K2.6 con el binomio de moda, Claude Code/Opus 4.7? La respuesta es complicada.
Un modelo estupendo (pero no perfecto). Kimi K2.6 es un modelo de pesos abiertos con un billón de parámetros en total (un trillón americano), de los cuales están activos 32.000 millones de parámetros y que usa la ya conocida arquitectura de Mixture-of-Experts. En el artículo de lanzamiento se muestra su rendimiento comparado con el de GPT-5.4 y Opus 4.6 y lo cierto es que sus números en estas pruebas sintéticas parecen realmente excelentes:
Hasta 8 veces más barato que Opus 4.6. Tiene planes de suscripción estilo Claude Pro o ChatGPT Plus, pero además se puede usar vía API. El precio en ese caso es de 0,60 dólares por millón de tokens de entrada (0,16 si están en caché) y 4 dólares por millón de tokens de salida. Claude Opus 4.6 cuesta 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, es decir, hasta ocho veces más. Claude Opus 4.7 tiene el mismo precio y teóricamente es mejor en rendimiento, pero cuando se anunció Kimi K2.6 esta versión aún no había aparecido (ni tampoco GPT-5.5).
La magia del enjambre de agentes de IA. Claude Code trabaja de forma secuencial. Analiza el problema, ejecuta un paso, comprueba el resultado y decide cómo sigue actuando. En Kimi Code se usa un enfoque diferente: un "agente maestro" divide o descompone la tarea que le pedimos en subtareas independientes y a partir de esa división lanza hasta 300 "subagentes" que corren en paralelo y son capaces de coordinar hasta 4.000 pasos de forma simultánea.
¿Muchos trabajando a la vez mejor que uno solo? Es el llamado "enjambre de agentes" de Kimi K2.6 que se aprovecha al máximo en Kimi Code y que también podemos activar en su versión gratuita en su web oficial. En Kimi K2.5 se podían lanzar hasta 100 subagentes y 1.500 pasos, así que el salto es significativo. En pruebas internas Moonshot mostró cómo esos enjambres lograron por ejemplo "refactorizar" un motor financiero de código abierto trabajando 13 horas seguidas y más de 1.000 llamadas a herramientas con una mejora del 185% en el rendimiento medio. Por supuesto, se trató de pruebas internas.
Más allá de los benchmarks. Kilo.ai es una empresa que desarrolla herramientas como Kilo Code o Kilo CLI —agentes de programación similar a Kimi Code—, y sus ingenieros quisieron evaluar el rendimiento de ambas combinaciones. Les dieron a Claude Opus 4.7 y a Kimi K2.6 el mismo prompt de 1.042 líneas para crear FlowGraph, una API de orquestación de flujos de trabajo con validación de grafos dirigidos o streaming de eventos en tiempo real. Ambos modelos corrieron sobre Kilo CLI porque lo que quisieron comparar fueron los modelos sin más.
Kimi fue más barato, pero también falló más. Claude Opus 4.7 terminó en 20 minutos y el coste final fue de 3,56 dólares. Kimi K2.6 tardó más, en parte porque la disponibilidad de los servidores era limitada (el modelo se acababa de lanzar), pero costó 0,67 dólares. Cinco veces menos.
Kimi hizo el 75% de lo que hizo Claude al 19% de su coste. El problema es que ambos creyeron haber hecho bien todo y no detectaron si habían cometido fallos. Un análisis más profundo reveló que Claude había cometido uno y que Kimi había cometido seis de diversa importancia. Según los analistas de Kilo.ai, la calificación final de ambos fue de 91 puntos sobre 100 para Opus 4.7 y de 68 puntos sobre 100 para Kimi.
Dos formas de ver el vaso. Esa puntuación parece dejar claro que Kimi simplemente es más barato porque hizo un peor trabajo. Pero los ingenieros de Kilo tenían otra forma de verlo. Llevan tiempo comparando modelos de pesos abiertos de empresas chinas y han notado cómo la brecha con los modelos "frontera" de Anthropic o de OpenAI cada vez es menos pronunciada.
"Con un precio de 0,67 dólares y una revisión minuciosa, Kimi K2.6 es ahora una opción viable. Con un precio de 3,56 dólares y menos correcciones necesarias, Claude Opus 4.7 es la opción más segura. La elección entre ambas opciones depende del análisis. Hace un año, esta elección prácticamente no existía a este nivel de complejidad".
Revisar es obligatorio. O lo que es lo mismo: si tras el trabajo de Kimi K2.6 uno realizara una revisión y corrección más profunda, es probable que todos esos errores fueran detectados y corregidos, pero si nos tuviéramos que fiar de ambos modelos y solo pudiéramos ejecutar "una pasada" de ejecución de IA, Opus 4.7 ganaría la partida. La clave está en eso: uno no debe fiarse del código de ningún modelo de buenas a primeras, y lo recomendable es siempre revisar ese código.
El factor geopolítico. Kimi y Kimi Code vienen de China, y la startup Moonshot AI tiene respaldo financiero de Alibaba. El código que se procesa en dichos modelos pasa por sus servidores, algo que para un desarrollador individual puede ser irrelevante. Sin embarego, para una empresa con código propietario sensible, contratos que deben cumplir cierta normativa europea o americana y proyectos en sectores regulados, eso puede ser un obstáculo importante. Kimi Code mitiga este problema ofreciendo la posibilidad de correr el modelo en local gracias a que tiene sus pesos abiertos, pero eso requiere máquinas muy potentes y elimina parte de la ventaja del coste.
Lo que Kimi Code tiene que Claude Code no. La diferencia más clara entre ambos agentes de IA de programación es el paralelismo. Como decíamos, la capacidad de lanzar hasta 300 subagentes para que trabajen simultáneamente atacando el mismo problema a la vez es notable. Para análisis de repositorios grandes o generación de documentación masiva, esa diferencia de velocidad es real y llamativa. Hay otro elemento importante: Kimi Code es agnóstico del modelo, y permite usar modelos en la nube como Claude, GPT o Gemini, pero también modelos locales vía Ollama. Claude Code también acepta otros modelos, pero es algo más complicado usarlo con otra cosa que no sea Sonnet/Opus.
Conclusión: que vivan las opciones. Aquí queda claro que lo que dicen los benchmarks internos es muy distinto de lo que dicen las experiencias reales. La comparativa de Kilo.ai es llamativa y vuelve a confirmar dos cosas. La primera, que Claude Opus 4.6/4.7 sigue siendo superior a los modelos de pesos abiertos de empresas chinas. La segunda y más importante, que ya no es tan superior. La diferencia de rendimiento se acorta, pero mientras lo hace entra en juego el apartado del coste: si el "modelo chino" es suficentemente bueno para ti (y cada vez lo es más), lo que conseguirás es ahorrar mucho dinero. Anthropic, OpenAI o Google deberían preocuparse.
Imagen | Chris Ried
En Xataka | DeepSeek se las prometía felices como la gran IA china. No contaba con un pequeño detalle: Kimi
Ver todos los comentarios en https://www.xataka.com
VER 1 Comentario