Google logra generar vídeos completos mediante IA contando sólo con un fotograma inicial y otro final

Imaginemos por un momento que pudiéramos darle un cómic a una inteligencia artificial y ésta nos devolviera un vídeo de animación basado en él, pero habiendo rellenado los huecos entre viñetas. Revolucionaría la industria de la animación, ¿verdad?

Pues eso es exactamente lo que podría estar camino de lograr un equipo de investigadores de Google AI: "los avances en visión artificial y en aprendizaje automático hacen que sea un objetivo cada vez más tangible", afirman en el paper de la investigación (PDF).

En Xataka

Convierten fotos fijas (¡y hasta cuadros!) en vídeos de cabezas parlantes gracias a una inteligencia artificial creada por Samsung

Por ahora, han logrado generar vídeos realistas contando únicamente con el primer y último fotograma de los mismos, e infiriendo a partir de ellos los fotogramas intermedios más 'plausibles', a través de un proceso conocido como 'inbetweening'.

Esta tecnología se basa en el uso de redes neuronales convolucionales, un modelo inspirado en el funcionamiento de las neuronas que podemos encontrar en la corteza visual primaria de un cerebro biológico, y que por ello suele usarse en tareas de análisis de imagen.

Imagen extraída del paper. Propiedad de Google AI.

En este caso, cuenta con tres componentes: una red decodificadora de imagen 2D, otra generadora de representaciones latentes 3D y una última generadora de vídeo.

"La clave del éxito de esta técnica radica en contar con un componente dedicado a aprender a representar el vídeo latente, al margen de la etapa final de decodificación del vídeo".

Otra vuelta de tuerca

Poco después de presentar este paper, otro equipo de investigadores (esta vez de Google Research) presentaron otro sistema basado en inteligencia artificial que, en este caso, prescindía incluso de los fotogramas inicial y final: este es capaz de generar vídeos desde cero, y (aquí reside la novedad) de tal forma que el resultado sea tan diverso como realista. Es decir, tal y como ya ocurre con las 'fotos' de rostros deepfake.

Para ello, han hecho uso de un dataset de vídeo de código abierto llamado Kinetics, cuyos clips incluyen elementos como movimientos de cámara, interacción con objetos completos y una amplia gama de movimientos humanos. Puedes encontrar más información en el correspondiente paper (PDF).

Vía | Venturebeat (y II)

Imagen | Torsten Behrens

Otra vuelta de tuerca

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios