Conceptos de inteligencia artificial: qué es la inteligencia artificial antagónica (y cómo puede manipular a otras IAs)

La IA está cada vez más presente en nuestro día a día: a medida que aumenta su ámbito de uso, tanto nosotros como las grandes empresas o los gobiernos pasamos a depender más de esta tecnología. Y, a medida que esto ocurre, nos vemos obligados a valorar no sólo su funcionalidad, sino también su seguridad: ¿Qué probabilidad existe de que la IA falle o, peor aún, de que sea vulnerable a un ataque?

La inteligencia artificial es, en el sentido amplio de la palabra, un arma; y, como todas las armas, puede ser usada para defendernos, pero también podemos ser atacados por ella. Así que reformulemos la anterior pregunta: ¿cómo de vulnerable es la inteligencia artificial a un ataque realizado recurriendo a la propia inteligencia artificial?

En Xataka

Usando la inteligencia artificial para el mal: así podrían aprovecharla ladrones y secuestradores

Cuando la IA se engaña a sí misma

Ya en 2013, algunos empleados de Google publicaron un artículo bautizado como "Las propiedades intrigantes de las redes neuronales", en el que planteaban cómo ésta tecnología podía ser manipulada mediante 'adversarial attacks' (ataques antagónicos), un término que se ha generalizado como modo de referirnos a las nuevas técnicas desarrolladas para manipular sistemas basados en machine learning a través de la introducción experimental de datos en un algoritmo.

Así, si hacemos que un algoritmo de visión artificial procese una gran cantidad de imágenes, sería posible realizar lo que llamamos ingeniería inversa, para conocer al detalle su funcionamiento y garantizar que seremos capaces de manipularlo; bien haciendo que dicho algoritmo no sea capaz de ver algo... o bien convenciéndolo de que está viendo algo que no existe.

Antes de seguir profundizando, remitámonos a un ejemplo real y concreto: en 2017, cuatro investigadores de la compañía LabSix pusieron a prueba el clasificador de imágenes Inception-v3, desarrollado por Google bajo código libre. Para ello, recurrieron a la impresión 3D para crear varias tortugas falsas totalmente realistas (indistinguibles de una verdadera para el ojo humano).

Lo lógico hubiera sido que Inception-v3 las hubiera identificado como tortugas, pero el algoritmo de Google sólo veía... rifles. ¿Cómo era esto posible? Fácil: el equipo de investigadores había llevado a cabo lo que se conoce como 'ataque antagónico'.

Mediante ingeniería inversa, habían identificado qué patrones concretos vinculaba el algoritmo a cada animal u objeto que era capaz de identificar, y una vez identificado el del rifle lo aplicaron al diseño del caparazón de las tortugas. Este patrón creado 'ex profeso' para manipular a una IA es lo que llamamos una 'muestra antagónica'.

Artificial Intelligence Adversarial Example Panda

Un poco de 'ruido' correctamente aplicado y ¡voilá! Un oso panda 'se convierte' en un gibón. (Vía Arxiv.org)

De esta forma, el ojo humano seguía viendo una tortuga normal y corriente, pero una IA no. No es algo tan extraño: nosotros, cuando vemos, percibimos formas, pero las máquinas sólo reconocen texturas; eso a veces ha permitido que la IA vea cosas que nosotros no podemos apreciar en modo alguno, pero también la ha convertido en vulnerable a algunos ataques.

Los resultados de este experimento, llevado a cabo por Andrew Ilyas y sus compañeros de LabSix, se hicieron públicos durante la Conferencia Internacional sobre Aprendizaje Automático de 2018, recibiendo una amplia cobertura por parte de los medios de comunicación.

"Incluso si no crees que ningún atacante va a manipular tu señal de 'stop'", explicaba Ilyas en referencia a los posibles efectos de los ataques antagónicos sobre el funcionamiento de los sistemas de conducción autónoma, "la mera posibilidad de que pueda ocurrir es preocupante".

En Xataka

Unas pegatinas en el asfalto bastan para 'hackear' el piloto automático de un Tesla… y convencerle para ir en dirección contraria

Pocos llevan más tiempo que Pin-Yu Chen, investigador de IBM, trabajando en este problema: él formaba parte del equipo que, en 2017 (antes del mediático caso de las tortugas-rifle) dio la voz de alarma avisando de lo fácil que era manipular la visión artificial de un coche autónomo: él y sus compañeros demostraron cuán fácil era volver 'invisible' una señal de 'Stop' con tan sólo añadirles algunas pequeñas pegatinas blancas y negras, como las que se ven aquí:

La señal de 'Stop' de arriba fue indetectable para la visión artificial de los coches autónomos usados en el experimento. La de abajo fue 'confundida' con un señalizador de límite de velocidad. (Vía: Arxiv.org)

¿Más posibles usos para esta clase de tecnología? Pues, por ejemplo, boicotear sistemas de reconocimiento facial. Pero... ¿y si en lugar de simplemente evitar ser reconocido, te hace pasar por otra persona, como Milla Jovovich? Científicos de la Universidad Carnegie Mellon lo consiguieron portando unas vistosas (ridículas) gafas que alteran la percepción de tus rasgos por parte de la IA de turno:

(Vía Carnegie Mellon University)

Pero aunque la manipulación de la visión artificial pueda ser el uso más obvio de esta clase de ataques, no deberíamos quedarnos ni mucho menos con la idea de que el resto de 'sentidos' de la IA son inmunes los ataques antagónicos: exactamente el mismo procedimiento usado antes permite ocultar en vídeos mensajes de audio dirigidos, por ejemplo, a asistentes digitales, pero imperceptibles para el oído humano, de tal manera que un tercero pueda dar órdenes a nuestro Amazon Echo, por ejemplo, sin nuestro conocimiento.

Veamos un ejemplo:

Malas noticias: la precisión y la vulnerabilidad ante los ataques antagónicos van de la mano

Irónicamente, concentrarse en dotar de mayor precisión a los sistemas de reconocimiento (de imagen, de audio, de lo que sea) basados en IA es lo que está convirtiéndolos en vulnerables a los ataque antagónicos. Según Pin-Yu Chen, la precisión los convierte en "frágiles", por lo que la clave radica en buscar un equilibrio entre precisión y lo que llama 'robustez', medidas de protección contra estos ataques.

La confirmación de esto llegó precisamente de la mano de Andrew Ilyas y su equipo (recordemos: los responsables del experimento de la tortuga): entrenaron una IA capaz de identificar gatos en base a características "consistentes" (reconocibles para los seres humanos) y "no consistentes" (aquellas que nuestra vista pasa por alto), y descubrieron que los clasificadores visuales eran capaces de identificar gatos recurriendo a ambos tipos de rasgos, pero que obtenían un mayor grado de precisión cuanto más tenían en cuenta las "no consistentes".

Cuando la IA se engaña a sí misma

Malas noticias: la precisión y la vulnerabilidad ante los ataques antagónicos van de la mano

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios