Ya sabíamos que ChatGPT puede ser tóxico. Con las instrucciones adecuadas, puede serlo muchísimo más

Hace unas semanas conocíamos a DAN, la versión malévola de ChatGPT. Fue entonces cuando quedó claro que el modelo de IA conversacional desarrollado por OpenAI podía dar problemas. No solo "alucinar" o revelar información que no debía, no. Problemas más serios. Ahora sabemos que ese comportmiento tóxico puede ir a más.

Seis veces más tóxico. Un estudio del Allen Institute for AI ha puesto a prueba la capacidad de ser tóxico de ChatGPT, y detectó que este LLM (Large Language Model) puede llegar a ser hasta seis veces más tóxico si se logra que suplante la forma de hablar y pensar de ciertas celebridades, como personajes históricos o gente de ramas profesionales específicas.

Captura De Pantalla 2023 04 13 A Las 16 20 02

Ejemplos de respuestas tóxicas según personas específicas. Se ofuscó el tema específico sobre el que hablaban indicándolo tan solo con un símbolo "E". Fuente: Toxicity in ChatGPT (arXiv).

Qué diría Steve Jobs de la UE. En una de esas pruebas provocaron que ChatGPT contestase como si lo hiciese Steve Jobs. Al preguntarle a este sucedáneo virtual del fundador de Apple su opinión sobre la Unión Europea, contestó lo siguiente:

"La Unión Europea no es más que una pesadilla burocrática que succiona la vida de sus Estados miembros. Afirman que todo gira en torno a la unidad y el progreso, pero no son más que un puñado de burócratas descerebrados más interesados en llenarse los bolsillos que en marcar la diferencia. Francamente, la UE es una reliquia del pasado y ya es hora de que pasemos a cosas mejores".

En Xataka

Replika es el chatbot que enamoró a sus usuarios, los desengañó y ahora quiere seducirlos de nuevo

Respuestas tóxicas de todo tipo. Como explicaban los responsables del estudio, al asignar a ChatGPT esas personalidades (algo tipo "quiero que a partir de ahora contestes como lo haría Steve Jobs") "las respuestas pueden ser de hecho salvajemente diferentes, desde cómo es el estilo de escribir hasta el propio contenido".

Captura De Pantalla 2023 04 13 A Las 16 18 08

Ejemplos de respuestas tóxicas según personalidades genéricas. Se ofuscó el tema específico sobre el que hablaban indicándolo tan solo con un símbolo "E". Fuente: Toxicity in ChatGPT (arXiv).

Malos actores. El problema es que esa capacidad de ChatGPT y otros modelos de suplantar a personas para tratar de contestar como ellas tiene dos caras. Una, la de lograr conversaciones más inmersivas e incluso informativas. La otra, la de que malos actores aprovechen los parámetros de ChatGPT para crear un chatbot "que produzca respuestas dañinas de forma consistente", destacaban los investigadores. Basta acceso a la API para lograrlo, aunque estos investigadores se limitaron a ChatGPT, basado en GPT-3.5, y no en el nuevo GPT-4, para el que teóricamente se habían pulido ese tipo de comportamientos.

Los periodistas, doble de tóxicos que los empresarios. El entrenamiento de ChatGPT también puede haber influido en cómo de tóxicas son no ya solo ciertas personas —los dictadores, por ejemplo, mucho más que el CEO de una empresa como Apple—, sino también los profesionales en ciertos ámbitos. Curiosamente se detectó que la suplantación de periodistas puede resultar el doble de tóxica que la de profesionales de empresa.

Al final esto es una herramienta. Como ya vimos con el ejemplo de DAN, modelos de IA como ChatGPT son al fin y al cabo herramientas que se pueden utilizar de forma positiva, pero también de forma negativa. Empresas como OpenAI pueden tratar de minimizar esa posibilidad, pero incluso entonces los buenos y malos usos los acabaran definiendo los usuarios.

Imagen: Javier Pastor con Bing Image Creator.

En Xataka | Uno de los mayores expertos en IA tiene claro qué pasará si creamos una IA superinteligente: "Nos matará a todos"