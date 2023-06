En Meta se despistaron un poco, pero desde hace unas semanas han pasado a darle un empujón importante a sus esfuerzos en el área de la inteligencia artificial. El lanzamiento de su modelo LLaMA ha sido muy celebrado entre la comunidad Open Source que lo ha utilizado de base para numerosos proyectos independientes, y hace unos días lanzaban MusicGen, su IA generativa para crear música. Ahora llega otro proyecto especialmente llamativo. Su nombre: Voicebox.

Voicebox. Los investigadores de Meta anunciaron Voicebox el pasado viernes indicando que se trata del primer modelo que puede generalizar tareas de generación de voz sin haber sido entrenado específicamente para ello y dando resultados excepcionales. Y va más allá de lo que logran otros modelos.

De texto a voz, no. De texto a (muchas) voces. Para empezar, Voicebox no necesita haber sido entrenado previamente: uno puede escribir una frase que queremos convertir en voz y a partir de ahí este sistema creará esas voces sintetizadas —no perfectas, pero muy convincentes— en distintos estilos que podremos elegir para leer ese texto.

De texto a tu voz. La característica más "tradicional" es la de lograr duplicar la voz de cualquier persona para que pronuncie cualquier frase, y eso es precisamente lo que Voicebox puede hacer como parte de sus capacidades. Basta con añadir un pequeño clip de audio (por ejemplo, la nuestra, y bastan dos segundos) junto a la frase escrita que queremos que se pase a voz, y el modelo logrará generar esa frase leída con la voz del clip de audio.

Ahora puedes hablar en un montón de idiomas. También es posible usar un texto escrito en cualquier idioma y un clip de audio en tu idioma nativo. Voicebox hará que "digas" esa frase en ese idioma como si fuera tu idioma nativo, algo especialmente interesante para superar la barrera del idioma en múltiples escenarios.

Elimina ruido. Voicebox también puede detectar y eliminar ruido de fondo, por ejemplo el ladrido de un perro mientras estás grabando un vídeo y no querrías que ese ladrido sonase mientras hablas.

Donde dije Diego. Por último, el desarrollo de Meta también es capaz de modificar el clip de audio original con tu voz en el que decías algo para cambiar cualquier palabra e insertar otra nueva indicada en el prompt de texto. Si habías dicho "Hola chicos, hoy hablaremos de inteligencia artificial" podrías cambiarlo fácilmente por un "Damas y caballeros, hoy hablaremos de inteligencia artificial", por ejemplo.

Entrenamiento de dominio público. Para crear Voicebox los ingenieros de Meta lo entrenaron con 50.000 horas de voz procedente de audiolibros en inglés, y otras 60.000 horas de audiolibros en otros idiomas. Esa es la razón de que en las demos las voces suenen como si estuvieran leyendo un libro y no adopten una entonación más informal, como la de una conversación. La idea es precisamente que el modelo evolucione hacia esa capacidad. Una vez más, el debate está servido: en Meta no especifican qué audiolibros se usaron, pero un portavoz de la compañía explicó a Gizmodo que esos eran audiolibros "de dominio público".

Deepfakes a la vista. Este tipo de sistema tiene ventajas notables y casos de uso muy beneficiosos, pero también puede ser usado de forma inadecuada para crear deepfakes. Con ellos se pueden ejecutar estafas de todo tipo suplantando identidades, y eso ha hecho que en esta ocasión Meta haya tomado una decisión importante con Voicebox.

No será Open Source. Al contrario que LLaMA, que es Open Source y se compartió con la comunidad académica, en Meta han dedicido no publicar el código de Voicebox. La empresa indica que debido a los malos usos prefieren no ponerlo a disposición del público porque quieren seguir investigando en IA de forma responsable. Comparten el estudio, eso sí, para mantener la transparencia en cuanto a avances en este campo.

