Texto, vídeo y ahora voz. OpenAI ya tiene una IA capaz de clonar cualquier voz con solo 15 segundos de muestra

Era solo cuestión de tiempo que OpenAI, que tiene modelos de inteligencia artificial capaces de generar imágenes, texto y vídeo, se animase a lanzar uno para generar voz. Efectivamente, la compañía capitaneada por Sam Altman ha anunciado Voice Engine, una tecnología capaz de clonar cualquier voz a partir de una muestra de tan solo 15 segundos.

Una voz que nos suena. Lo cierto es que el modelo no es nuevo. OpenAI empezó a desarrollarlo a finales de 2022 y lo han usado para generar la voz de su API de texto a voz. Asimismo, lo utilizaron para crear la voz de ChatGPT en las apps móviles. Desde 2023, un “reducido grupo de partners de confianza” lo han estado usando para explorar posibles casos de uso y lo cierto es que el resultado, lejos de ser totalmente creíble, es realmente convincente.

15 segundos. Eso, y un poco de texto, es lo único que necesita Voice Engine para clonar una voz. Aunque no sabemos cuán grande es el modelo, según OpenAI “es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”. No pinta mal, pero lo cierto es que no parece que vayamos a poder probarlo por nosotros mismos dentro de poco. Razones hay de sobra. En palabras de la firma:

"Esperamos entablar un diálogo sobre el despliegue responsable de las voces sintéticas y sobre cómo la sociedad puede adaptarse a estas nuevas capacidades. A partir de estas conversaciones y de los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo".

Los usos (buenos). OpenAI ha aprovechado el anuncio, que realmente es más una muestra de fuerza, para hablar de los casos de uso desarrollados por esos “partners de confianza” mencionados anteriormente. Uno de ellos es la asistencia a la lectura, que permite a los más pequeños o a las personas que no saben leer escuchar el texto con una voz más natural y amigable.

Audio de referencia:

Audio generado:

Temática biología: "Some of the most amazing habitats on Earth are found in the rainforest. A rainforest is a place with a lot of precipitation and it has many kinds of animals trees and other plants. Tropical rainforests are usually not too far from the equator and are warm all year".

Temática física: "Have you ever wondered why a soccer ball soars through the air the way it does or how a skateboarder manages to stay on their board while flipping it? It's all about the science of how objects move called physics. First the push you give off the ground is the force that gets you going. Then as you speed up gravity another natural force pulls you down the hill. Finally when you brake the force of friction between the bike's brake pads and the tires slows you down".

Temática química: "Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function".

También tiene aplicaciones prácticas en el mundo de la traducción. Usando una muestra de audio, Voice Engine puede traducir y doblar lo dicho a otros idiomas. Curiosamente, la IA es capaz de conservar el acento, de forma que si usamos un audio en inglés como base para generar un audio en español, este último audio tendrá el acento de una persona de habla inglesa hablando español.

Audio original:

Audio generado:

Traducción al español: La amistad es un tesoro universal aporta alegría apoyo y risas a nuestras vidas sin importar donde estemos en el mundo. Los verdaderos amigos están con nosotros en las buenas y en las malas compartiendo nuestras alegrías y aliviando nuestras penas. Celebremos los lazos de amistad que nos conectan a todos a través de cada idioma y cultura.

Traducción al alemán: Freundschaft ist ein universeller Schatz. Sie bringt Freude, Unterstützung und Lachen in unser Leben, egal wo auf der Welt wir uns befinden. Wahre Freunde stehen uns durch dick und dünn zur Seite, teilen unsere Freuden und lindern unsere Sorgen. Feiern wir das Band der Freundschaft, das uns alle verbindet, über alle Sprachen und Kulturen hinweg.

Traducción al japonés: 友情は普遍的な宝物です。世界のどこにいても、私たちの生活に喜び、サポート笑いをもたらします。本当の友達はどんな時も私たちに寄り添い、喜びを分かち合い、悲しみを和らげてくれます。あらゆる言語や文化を超えて私たち全員を繋ぐ友情の絆を祝いましょう。

Esta IA también tiene potencial para personas con problemas de habla. OpenAI ha expuesto un caso del Norman Prince Neurosciences Institute de Lifespan (Facultad de Medicina de la Universidad de Brown) que, gracias a que Voice Engine solo requiere de una muestra de 15 segundos, se pudo restaurar la voz de una paciente que había perdido la fluidez del habla debido a un tumor cerebral a partir de un vídeo grabado para un proyecto escolar.

Voz actual:

Audio de referencia:

Audio generado:

Hi everyone, this is what my voice sounds like using OpenAI's new text to speech model called Voice Engine. I was able to use just 15 seconds of a video that I made for a class project to be the reference audio source for the voice you hear right now. What do you think?

Los usos (potencialmente dañinos). Estos son solo algunos de los casos de uso expuestos por OpenAI, pero la realidad es que Voice Engine puede ser usado para cosas no tan bonitas. Podemos pensar en deepfakes y suplantaciones de identidad, y eso sin pensar demasiado. A efectos prácticos, bastaría con el audio de una historia de Instagram para clonar nuestra voz. OpenAI es consciente de los riesgos que esto supone y, precisamente por ello, no han desplegado el modelo. Sin ir más lejos, podemos pensar en el potencial uso dañino que tendría esta tecnología en plenas elecciones estadounidenses. En palabras de la organización:

"Creemos que cualquier despliegue generalizado de tecnología de voz sintética debe ir acompañado de experiencias de autenticación de voz que verifiquen que el hablante original está añadiendo su voz al servicio con conocimiento de causa, y de una lista de voces prohibidas que detecte e impida la creación de voces demasiado parecidas a figuras prominentes".

OpenAI asegura que “hemos decidido presentar esta tecnología en primicia, pero no difundirla ampliamente en este momento” e invitan a tomar medias, como “eliminar progresivamente la autenticación basada en la voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible”. También invitan a “explorar políticas para proteger el uso de la voz de las personas en la IA”.

Imagen | Unsplash

En Xataka | Te llama tu hija, está en peligro, te pide miles de euros de inmediato. Al otro lado del teléfono hay una IA