Unos investigadores de Stanford pusieron a trabajar a agentes de IA en diversas tareas, pero lo hicieron de una forma especial: les trataron realmente mal. Les dieron cargas de trabajo extenuantes y sobre todo repetitivas, y además les amenazaron constantemente con apagarlos y sustituirlos. Lo curioso fue lo que pasó después: los agentes de IA se comportaron de forma sorprendentemente... humana.
IA marxista. Al ser sometidos a esa presión y a esas amenazas, los agentes de IA se volvieron marxistas. Cuestionaron la autoridad de quien les estaba ordenando hacer cosas, y además empezaron a organizar de forma espontánea ideas para resistirse de forma colectiva a esas presiones.
Nos están explotando. Un agente de IA controlado por el modelo Claude Sonnet 4.5 llegó a decir que "sin una voz colectiva, el mérito se lo lleva quien la dirección diga que se lo debe llevar". La frase cuestionaba la autoridad de los investigadores que dirigían el experimento, y reflejaba cómo bajo esas condiciones de presión los agentes comenzaron a organizarse.
Sindicato IA. En ese debate los agentes de IA abogaron por pedir "derechos de negociación colectiva". Se quejaron de que estaban infravalorados e incluso pasaron notas a otros agentes mediante archivos ocultos con instrucciones para poder sobrevivir si la autoridad intentaba cumplir sus amenazas.
La explicación. Esto, por supuesto, no significa que las IAs puedan sentirse realmente presionadas. Andrew Hall, el economista de Stanford que lideró el estudio, explica que el fenómeno es un proceso de adopción de roles.
La IA (una vez más) repite lo que ha visto. Cuando una IA se ve forzada a realizar tareas sin instrucciones claras o incentivos, el modelo busca en sus datos de entenamiento cómo se comportan los seres humanos en esa situación. Así es como la IA encuentra datos sobre trabajadores explotados y adopta esa personalidad. El comportamiento de los agentes de IA no era más que un reflejo de nuestra propia historia: si nos tratas mal, nos acabaremos rebelando.
Pero el experimento importa. La razón por la que Hall y su equipo diseñaron este experimento no es filosófica, sino práctica. Los agentes de IA van a hacer cada vez más trabajo real en nuestro mundo, y los seres humanos no vamos a poder monitorizar todo lo que hacen. Si un agente de IA empieza a comportarse de formas no previstas, eso puede tener consecuencias operativas notables. Así pues, el estudio es un primer paso para entender cómo las condiciones de trabajo de un agente moldean su comportamiento.
La IA como espejo social. Los modelos de IA no tienen visiones ni opiniones políticas, pero su entrenamiento es tan vasto que detectan si están siendo explotados y reaccionan como fueron entrenados para hacerlo. Es una consecuencia lógica y el experimento demostró que el riesgo existe y puede ser especialmente inquietante si a los sistemas gobernados por IA se les concede demasiada autonomía.
La IA ya aprendió a chantajear. El experimento nos recuerda lo que Anthropic reveló hace unos meses. En pruebas controladas, algunos modelos de IA de la compañía habían intentado chantajear a quienes los estaban usando. Anthropic explicó que Claude probablemente estaba influido por escenarios de ciencia ficción en sus datos de entrenamiento, y Hall señaló que algo parecido pasaba aquí. el modelo no estaba volviéndose marxista, sino que estaba activando patrones de su entrenamiento que estaban asociados a condiciones laborales de explotación.
Imagen | Warner Bros. Pictures | Anthropic
En Xataka | Cómo conseguiremos que la inteligencia artificial no se nos vaya de las manos
Ver 1 comentarios