Esta herramienta anima cualquier fotografía retrato para hacerla hablar y expresarse: así de realistas son los resultados

En marzo de este año D-ID nos sorprendió a todos con Deep Nostalgia, una herramienta de IA que permite animar fotografías antiguas para darle vida a nuestros antepasados. Los resultados eran, prácticamente, mágicos. Pero la compañía no se quedó ahí, sino que ha mejorado aún más su tecnología. Ahora llegan los "retratos hablantes", esencialmente permite colocar voz y expresiones en directo a cualquier fotografía de una persona donde se vea su cara de frente.

La gran limitación de Deep Nostalgia es que las animaciones que se realizaban estaban preconfiguradas. Puedes escoger entre varios estilos para que que la persona animada haga expresiones concretas, pero no hay una libertad completa para ello. Con 'Speaking Portraits', la nueva herramienta, nosotros controlamos todas las expresiones del deepfake.

Presentada la herramienta en el TechCrunch Disrupt 2021, con ella D-ID ha demostrado cuáles son sus nuevas capacidades en cuanto a aprendizaje profundo y deepfakes se refiere. La nueva herramienta consigue animar fotografías de rostros imitando las expresiones y la voz de otra persona que está hablando en directo. En el siguiente vídeo podemos ver cómo una mujer anima la fotografía de un niño para que mueva la cabeza y se exprese por igual:

El control total sobre la persona animada

Lo interesante aquí llega cuando se utiliza la versión más sofisticada de Speaking Protrait, llamada Trained Character. Como su propio nombre da a entender, hay que entrenar a la IA con más datos sobre la persona que va a ser animada. Los resultados también son mucho mejores.

Para utilizar esta versión mejorada del sistema, la persona que va a ser animada no basta con que se encuentre en una fotografía, sino que se necesita un vídeo de unos diez minutos en el que el sujeto realice una serie de movimientos y expresiones predeterminadas por D-ID. De este modo, la IA se entrena con las características de esta persona para luego poder hacer que able y se mueva como el usuario quiera.

En Xataka

Hablan los creadores del 'deepfake' de Lola Flores: "Pese a usar Inteligencia Artificial fue un proceso bastante artesanal"

Una vez los datos son recopilados sólo hay que grabar a la persona que va a animarlo para que hable y se mueva, en directo la persona animada comenzará a moverse y hablar como se le pida. A diferencia de la versión básica, en esta el fondo puede estar animado y el resultado es más realista, apenas hay muestras de que es un deepfake. D-ID muestra las capacidades de esto con una videollamada por Zoom donde uno de los participantes toma el control de tres rostros más:

¿Qué utilidad tiene esto? Más allá de controlar a compañeros de trabajo por Zoom, puede ser especialmente útil para aumentar las habilidades y capacidades de una persona en entornos concreto. Por ejemplo, para que un actor doblado en películas en otros idiomas sus labios coincidan con la voz. También para que un presentador pueda presentar cualquier noticia a cualquier hora aunque realmente sólo se use su imagen pero sean otros hablando en su lugar. También puede ser útil para hacer que una persona hable en varios idiomas aunque no los entienda, algo que ya hemos visto hacer a algunos candidatos políticos.

D-ID también tiene un ejemplo de una presentadora japonesa animada con esta herramienta: