AutoFoley, la inteligencia artificial que añade efectos de sonido a un vídeo según lo que aparezca en él

Foley es el proceso de recrear sonidos, como los pasos de la gente o el choque de dos objetos, para añadirlos a las películas en postproducción como efectos de sonido. Por ejemplo, en 'El Señor de los Anillos: El Retorno del Rey', el sonido que hacen las calaveras al caerse en el minuto 36:25 del film no se consiguió con calaveras de verdad, sino con 20 kilos de nueces moviéndose en un saco y unos cocos cayéndose al suelo.

Conseguir estos efectos de sonido es laborioso, pero AutoFoley, una IA desarrollada por John J. Prevost y Sanchita Ghose, de la Universidad de Texas, busca hacerlo más sencillo sintetizando sonidos a partir de imágenes.

En Xataka

El brutal sonido de 'La trinchera infinita' demuestra que siempre es tan importante como la imagen: hablamos con sus responsables

Si en la escena llueve, debe sonar la lluvia

Los investigadores describen AutoFoley como "una herramienta de aprendizaje profundo totalmente automatizada que puede utilizarse para sintetizar una pista de audio representativa para los vídeos". De acuerdo a Prevost y Ghose, puede utilizarse en aplicaciones en las que no existe un archivo de audio asociado a un vídeo, o lo que es lo mismo, en vídeos sin sonido.

Para ello, AutoFoley se vale de dos modelos de machine learning. El primero analiza las características de la imagen, como el movimiento. El segundo analiza la relación temporal del objeto en los diferentes frames del vídeo. Después de aplicar cada uno de los modelos, el sonido se sintetiza para que encaje con el vídeo.

AutoFoley, explican los investigadores en su artículo publicado en IEEE Xplore, fue entrenado con "un conjunto de datos de audio y video a gran escala que contiene una variedad de sonidos usados frecuentemente como efectos Foley en las películas". Finalmente, usaron AutoFoley para recrear el sonido de 1.000 vídeos cortos, como los que podemos ver en este texto.

Como explican en IEEE Sprectrum, AutoFoley consigue mejores resultados cuando el sonido no tiene que estar perfectamente sincronizado con la escena. En el vídeo del caballo galopando, por ejemplo, puede verse que el sonido no está perfectamente sincronizado con las patas del animal, mientras que en el vídeo de la hoguera no es fácil saber que es un audio sintetizado de forma artificial. De hecho, los investigadores encuestaron a 57 estudiantes y el 73% de los sujetos "consideraron la pista de sonido generada como original".

El modelo, como indicábamos, no es perfecto. Los investigadores señalan que un requisito para que AutFoley funcione bien es el que el sujeto esté siempre en escena. Por ejemplo, en las películas, si un caballo se sale de la escena seguimos escuchando cómo se aleja. Esto, por el momento, no es capaz de ser interpretado por la IA, pero será un tema que abordarán en investigaciones futuras.

Vía | IEEE Spectrum

Si en la escena llueve, debe sonar la lluvia

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios