Impartir clase mediante deepfakes: investigadores de Udacity crean un generador de vídeos a partir de audios de lecciones grabadas

El auge de las plataformas de MOOCs (como Coursera o EdX) han provocado un aumento de la producción de vídeos destinados a fines educativos, pero que éstos tengan un aspecto profesional requiere de una gran inversión en materiales y tiempo de grabación y edición, así como de una adecuada selección de localizaciones.

Sabiendo esto, dos investigadores de la plataforma de e-learning Udacity, Byung-Hak Kim y Varun Ganapathi, pensaron que podría resultar interesante (y rentable) buscar un modo de abaratar y agilizar la creación de esta clase de clips.

Tres modelos de redes neuronales para unir imagen y sonido

Y lo lograron recurriendo a la inteligencia artificial para generar automáticamente nuevos vídeos a partir de una muestra de imágenes y un archivo de audio con la lección en cuestión.

En Xataka

Conceptos de inteligencia artificial: qué son las GANs o redes generativas antagónicas

"Con el método actual de elaboración de vídeos, un sistema de IA que automatice parcial o totalmente la generación de vídeos de lecciones podría ser extremadamente más beneficioso [...] que volver a grabar cada vídeo de nuevo".

Tal como explican en su paper "LumièreNet: Lecture Video Synthesis from Audio", bastaría con utilizar las mismas imágenes como referencia y sintetizar nuevos archivos de vídeo a partir de cada nuevo clip de audio, haciendo coincidir cada fotograma con la pronunciación y las pausas del audio.

Para realizar esta tarea -que los investigadores definen la labor de su IA como "mapear desde una secuencia de audio grabada por un instructor a una secuencia de vídeo"- se basan en el uso de "una IA sencilla, modular y basada en el uso de redes neuronales".

Para generar la imagen del conferenciante, se extraen fotogramas del vídeo de referencia, y luego se 'hace cuadrar' imagen y sonido. Se utilizan para ello tres modelos de redes neuronales: BLSTM, un codificador automático variacional, y una GAN conocida como Pix2Pix.

En Xataka Ciencia

Cuando te evalúan tus propios compañeros

Para poner LumièreNet a prueba, los investigadores grabaron a un conferenciante durante 8 horas en el estudio de la sede de Udacity, de los que utilizaron finalmente 4, divididas en dos partes (una para entrenar y otra para validar).

Los clips resultantes son, según sus creadores, "convincentes", con gestos fluidos y en el los que el pelo no tiende a aparecer y desaparecer, como es habitual en otros sistemas similares.

Eso no significa que no salte todavía a la vista que son artificiales: como puedes comprobar por ti mismo, este sistema aún no puede captar ciertos 'detalles de alta calidad' como el movimiento de la ropa, del cabello, de los ojos (casi nunca parpadean) o de los labios (el movimiento es poco natural, a veces inexistente) o de los dedos (tienden a parecer borrosos).

Vía | VentureBeat

Tres modelos de redes neuronales para unir imagen y sonido

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios