SenseTime desarrolla una IA capaz de crear vídeos deepfake realistas a partir de un clip de audio

La inteligencia artificial puede aplicarse en infinidad de campos y uno de los más controvertidos es el de la manipulación de vídeos. Estos clips manipulados, conocidos como deepfakes, suponen todo un reto para las grandes plataformas sociales como Facebook, y es que no dejan de mejorar y de hacerse más difíciles de detectar. Prueba de ello es la nueva IA de SenseTime, el gigante tecnológico de Hong kong, que es capaz de crear deepfakes realistas.

Resumiendo su funcionamiento, la IA detecta en cada frame de un vídeo elementos como la expresión, la geometría y la pose de la cara. Posteriormente, explican los autores del artículo, "se introduce una red recurrente para traducir el audio de origen en parámetros de expresión que están relacionados con el contenido de audio". Estos parámetros de expresión se usan para sintetizar un "humano foto-realista" en cada frame del vídeo "con el movimiento de las regiones de la boca mapeado con precisión al audio de origen".

En Xataka

Las redes sociales frente a los deepfakes: un repaso a las políticas de Facebook, Instagram, Twitter y LinkedIn

¿En qué se traduce esto? En que el vídeo generado emula las expresiones faciales que se interpretan del clip de audio original, pero respetando la pose y características del rostro del sujeto, dando como resultado un vídeo realista que, como pudieron comprobar los autores del estudio, es complicado de detectar a simple vista por los usuarios.

Mapeando un vídeo usando el audio como fuente

Esquema del funcionamiento de la IA de SenseTime. Como puede verse, la IA vincula el clip de audio con expresiones faciales para, posteriormente, aplicar dichas expresiones faciales a un vídeo.

La metodología seguida por los investigadores es relativamente sencilla. Puedes ver un esquema en la imagen superior y se puede resumir en tres pasos:

Registrar un modelo facial paramétrico en 3D que incluye, como decíamos, la geometría de la cara, la pose y los parámetros de la expresión en cada frame del vídeo.
La red de traducción de audio a expresión "aprende" el mapeo de la fuente de audio para aplicar los parámetros de expresión. A este se le aplica Audio ID-Removing Network, que sirve para eliminar los problemas de grandes variaciones cuando se usan audios de diferentes personas. Es importante, ya que los escasos datasets de vídeos disponibles incluyen diferentes sujetos, cada uno con su acento y su tono.
Finalmente, se genera una malla facial 3D reestructurada usando los puntos de referencia de la región de la boca en cada frame. Dicho de otra forma, la cara generada por la IA mueve la cara y la boca para simular que está diciendo lo que se dice en el audio original, lo que hace que el vídeo sea foto-realista.

En otras palabras, la inteligencia artificial de SenseTime puede coger un clip de cualquier persona y hacer que diga lo que sea respetando la expresión facial del sujeto y sus movimientos, pero aplicando las expresiones faciales extraídas del clip de audio. Es curioso, de hecho, que la IA funciona incluso con diferentes poses. En el minuto 2:36 del vídeo bajo estas líneas puedes ver un ejemplo. Los resultados son de lo más realistas, hasta el punto de que la IA puede hacer que una persona cante (3:26 del vídeo inferior).

En el vídeo superior se muestran varias ejemplos y resulta llamativo el detalle de la textura de la cara, los dientes, el movimiento de los labios, las líneas faciales y hasta los hoyuelos. El modelo, eso sí, no es perfecto, ya que no es capaz de imitar emociones o estimar los sentimientos expresados en el clip de audio que se usa como fuente, solo recoge las expresiones faciales asociadas.

De la misma forma, se ignora la lengua, lo que hace que algunos fonemas como "z" (cuya pronunciación requiere poner la lengua entre los dientes) no se emulen de forma natural. Finalmente, los investigadores destacan que el modelo tiende a ofrecer peores resultados cuando el clip de audio original tiene mucho acento. Ponen el ejemplo de una persona que habla inglés con acento ruso, cuyo clip de audio no termina de sincronizarse bien con la malla 3D sintetizada por la IA.

Sea como fuere, los clips se evaluaron mostrándolos a un equipo de 100 voluntarios que debían marcar si un vídeo era verdadero o había sido sintetizado. En total fueron 168 vídeos, la mitad falsos y la mitad verdaderos, y el resultado fue que los vídeos generados por la IA fueron etiquetados como reales el 55% de las veces, mientras que los vídeos reales fueron marcados como tales el 70,1% de las veces.

Se trata de un proyecto interesante que podría usarse, como afirman los investigadores, "para avanzar en la edición de vídeo". Sin embargo, también son conscientes de que tiene "potencial" para ser "mal usado o abusado" con diferentes propósitos, como manipulación de medios o difusión de propaganda maliciosa. Precisamente por ello, afirman, "defendemos y apoyamos firmemente todas las medidas de salvaguardia contra esas prácticas de explotación" y "acogemos con satisfacción la promulgación y aplicación de legislación que obligue a que todos los vídeos editados sean etiquetados claramente como tales".

Vía | VentureBeat

Mapeando un vídeo usando el audio como fuente

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios