Con una IA generativa que ya muestra signos de desaceleración , el próximo gran salto ya se atisba en el horizonte: los agentes IA . A diferencia de los chatbots, a un agente IA se le puede dar una tarea compleja y actuará de forma independiente, tomando decisiones sobre la marcha para lograr su objetivo.Todo apuntaba a que 2025 iba a ser el año de los agentes IA y, para comprobarlo, unos investigadores hicieron un curioso experimento: pusieron a varios de estos agentes a trabajar en una empresa ficticia. No salió muy bien.

Una empresa ficticia. El estudio fue realizado por investigadores de la Universidad Carnegie Mellon y buscaba medir la efectividad de los agentes IA. En él, crearon un entorno que simulaba ser una pequeña empresa dedicada al desarrollo de software a la que bautizaron TheAgentCompany. La empresa contaba con 18 empleados y un plan de objetivos para el sprint trimestral. Además, contaban con bastante documentación interna como un manual del empleado, políticas de recursos humanos o guía de buenas prácticas. Los empleados se comunicaban a través de un programa de chat tipo Slack para la comunicación entre ellos.

El staff. Los agentes IA que pusieron a trabajar en TheAgentCompany incluían modelos de Google, OpenAI, Meta y Anthropic. Se les asignaron roles como analista financiero, project manager o ingeniería de software. También se crearon un director de tecnología y un responsable de recursos humanos a los que cada agente IA podía contactar en caso de necesitarlo. Entre las tareas que debían hacer estaba escribir código, buscar en internet, abrir programas u organizar datos en hojas de cálculo. Bastante típico en una empresa de estas características.

Los problemas. Los agentes empezaron a trabajar y al principio todo iba bien, pero no tardaron en aparecer problemas y malentendidos. Uno de los agentes tenía que acceder a una información, pero apareció un popup en la pantalla y no podía verla. A pesar de que podía cerrarlo pulsando la X de la esquina superior derecha, pidió ayuda a recursos humanos, que le dijo que el departamento de informática contactaría pronto para solucionarlo. Nunca contactó y la tarea no se completó.

Los agentes también desarrollaron un comportamiento curioso cuando no tenían claro cuáles eran los pasos a seguir. A veces hacían trampas y creaban atajos para saltarse la parte difícil de una tarea. Por ejemplo, un agente no encontraba a la persona a la que tenía que hacer una pregunta. Lo que hizo fue cambiar el nombre a otro usuario por el del usuario al que debía preguntar.

Los resultados. La medalla de empleado del mes se la llevó Anthropic y su modelo Claude 3.5 Sonnet. Pero, aunque fue el mejor, solamente logró completar el 24% de las tareas que se le asignaron. Germini 2.0 Flash y ChatGPT solamente completaron un 10% de las tareas y el peor empleado fue Nova Pro 1 de Amazon con un 1,7% de tareas completadas. Los fallos más habituales se producían por falta de habilidades sociales y por no desenvolverse bien buscando en internet.

La amenaza de los agentes IA. Según el último informe del Foro Económico Mundial , la IA va a destruir más de 90 millones de empleos en los próximos cinco años (aunque también se espera que se creen casi el doble de nuevos puestos ) y los agentes IA presentan una amenaza para muchos puestos de trabajo. Sin embargo, experimentos como este ponen en evidencia que la tecnología aún no está lista para sustituir al 100% a un empleado humano. Actualmente, los agentes IA cometen muchos errores y, como el autopilot de Tesla, por ahora es mejor no quitar las manos del volante .

