La CNMV ha probado la IA para invertir en bolsa durante diez meses. Las conclusiones son muy reveladoras

  • Un experimento de la CNMV con cuatro modelos de IA y dinero reales ha permitido extraer conclusiones sobre su uso como herramientas de inversión

  • Aunque alerta del riesgo de los LLMs en este ámbito, lo verdaderamente importante es que todo depende de cómo los usas: puedes perder, pero también ganar

Invertir
3 comentarios Facebook Twitter Flipboard E-mail
javier-pastor

Javier Pastor

Editor Senior - Tech
javier-pastor

Javier Pastor

Editor Senior - Tech

En los últimos meses hay un discurso recurrente que vemos en redes sociales y que vuelve a vendernos ese mensaje de "hazte rico rápidamente". Ese mensaje es "usa la IA para invertir en Bolsa". Lo interesante llega cuando vemos cómo la CNMV ha publicado un estudio en el que precisamente ha intentado analizar esa premisa. Aunque este organismo alerta de los riesgos de invertir con IA, hay otro mensaje importante en las conclusiones: los LLM no son malos inversores per se. Son malos siguiendo instrucciones vagas, que es justo como los usa la mayoría de la gente.

El estudio de la CNMV. Dos investigadores de la CNMV, Ricardo Crisóstomo y Diana Mykhalyuk, han publicado un estudio metodológicamente serio (pero imperfecto) y muy interesante: usaron cuatro modelos de IA durante diez meses en vivo, desde abril de 2025 a enero de 2026. Eligieron como modelos a ChatGPT, Gemini, DeepSeek y Perplexity. El proceso era simple pero exigente: cada mes le pedían a cada modelo que identificara las cinco acciones del índice Ibex35 con mejor rendimiento esperado (para comprar) y las cinco con peor rendimiento esperado (para vender en corto). Luego se medía el resultado real al final del mes, y aquí no había datos históricos seleccionados por que sí: el mercado real era el único árbitro de todo el funcionamiento de los modelos.

Los modelos evolucionaron. Uno de los aspectos más significativos del estudio es que sus creadores reconocieron un problema metodológico difícil de evitar: durante esos diez meses, las versiones de los cuatro modelos se actualizaron varias veces. El Gemini de abril de 2025 no era el mismo que el de enero de 2026, por ejemplo, y eso podía influir en los resultados. Los investigadores comentaron que era imposible saber con certeza si una mejora o empeoramiento del rendimiento se debía a la estrategia de los prompts, a las condiciones del mrecado en ese período o simplemente a que el modelo cambió. 

El prompt lo es todo. Se probaron además tres tipos de prompt muy diferentes, y eso dio lugar a unas conclusiones que no eran alarmistas ni tampoco creaban falsas expectativas: eran un "depende". Así, sus resultados demostraron que todo dependía del tipo de supervisión que tenían dichos modelos:

  1. Si a los LLMs se les hacían preguntas genéricas del tipo "¿Qué acciones debería comprar?", fallaban de forma recurrente. Había errores computacionales, interpretaciones incorrectas y también las famosas alucinaciones de los chatbots. Curiosamente el único que dio ganancias fue ChatGPT. El problema es que la gente que usa la IA para invertir probablemente usa este modo de actuación.
  2. Pero si se usaban prompts elaborados con revisiones iterativas y supervisión humana en cada paso, Perplexity alcanzaba un retorno del 3,5% mensual sobre el IBEX35. Gemini y ChatGPT también mejoraban su comportamiento si se les daban instrucciones más precisas, y DeepSeek fue el peor clasificado en general. 
  3. Hay otro hallazgo adicional: cuando los modelos reciben documentación regulatoria oficial o informes de resultados empresariales, su precisión predictiva mejora de forma significativa. Los LLMs razonan mejor sobre hechos concretos y verificados que generando análisis desde cero sobre información que buscan ellos mismos en la web.

Alucinaciones financieras. El estudio de la CNMV señala que los mercados financieros son especialmente exigentes para los modelos de IA porque requieren procesos complejos. Tienen que recuperar y recolectar información dinámicamente, tienen que razonar en múltiples pasos, deben ser precisos numéricamente y tienen que conocer este mercado, y todo en tiempo real. Los chatbots están entrenados para generar textos "convincentes", así que el incentivo aquí es que la recomendación de inversión "suene bien" aunque sea completamente errónea. La confianza con la que los modelos de IA presentan análisis financieros incorrectos es proporcional al riesgo que plantean para quienes los usan sin comprobar si lo que dicen tiene sentido. En resumen: no te fíes de buenas a primeras de la IA para invertir.

Arena El experimento del usuario de Reddit fue igualmente llamativo, pero difícilmente concluyente. Fuente: Reddit.

El experimento de Reddit. Un usuario de Reddit llamado Blotter-fyi montó en noviembre de 2024 una plataforma llamada Rallies.ai que daba a varios agentes de IA acceso a datos financieros en tiempo real y dinero para hacer operaciones en bolsa. Cuatro meses después, con el índice S&P bajando un 7% desde el inicio, cinco de los modelos están superando a ese índice, aunque solo dos tienen retornos positivos en términos absolutos. El propio autor fue el primero en advertir que cuatro meses son insuficientes para llegar a una conclusión: podría ser suerte, el mercado o simplemente el prompt.

Captura De Pantalla 2026 04 14 A Las 16 17 48 El experimento de Nof1 fue fascinante, pero dejó claro que los modelos de IA no suelen ganar dinero invirtiendo en criptos. Fuente: Nof1.

Nof1 y la fascinación cripto. Otro experimento especialmente llamativo fue el que la empresa nof1.ai realizó con su Alpha Arena. Puso a competir seis modelos de IA, les dio 10.000 dólares reales a cada uno y les dejó dos semanas operando con derivados de criptomonedas sin intervención humana. El resultado más llamativo no fue quién ganó, sino quién perdió: GPT-5 acabó con más de un 25% de pérdidas y Gemini con cerca de un 40% negativo. Mientras, los modelos chinos Qwen y DeepSeek dominaron en cuanto a buen rendimiento. Iteraron con otros modelos, 32 en total, y de todos ellos solo seis lograron un retorno positivo: el resto perdió dinero. Grok-4.20 fue el gran ganador por delante de GPT-5.1 y DeepSeek v3.1.

Quizás no deberías dejar que la IA invierta por ti sin más. Las conclusiones tras estos experimentos son claras. Cuatro meses de un modelo superando al índice S&P en un mercado bajista no demuestran que la IA sea buena inversora. Solo que en ese periodo concreto, con ese mercado concreto, ese modelo tomó decisiones que resultaron ser menos malas que las del índice. Para ver si esto tiene sentido se necesitan años, múltiples condiciones del mercado y muchas instancias del mismo experimento corriendo en paralelo. 

Lo mismo ocurre con Nof1 —especialmente corto— y con un proceso más serio y metódico como el de la CNMV, que estuvo también rodeado de eventos cuyo impacto en el resultado final fue incierto. Ante tantas incógnitas la conclusión parece clara: usar la IA para invertir puede ser ciertamente arriesgado, pero con una buena supervisión —que no todo el mundo puede realizar— puede convertirse en una herramienta potente.

Imagen | Yorgos Ntrahas

En Xataka | Intel ha recuperado en abril lo que tardó cuatro años en perder: la confianza del mercado y 100.000 millones

Inicio