El nuevo generador de voz sintética de Amazon se basa en el uso de redes neuronales y es capaz de sonar como un locutor humano

Amazon Web Services lanzó a finales del 2016 su servicio en la nube Amazon Polly, destinado a la conversión del texto en voz. Pero este campo ha experimentado varias novedades en los últimos meses gracias al uso de redes neuronales (recordemos el WaveNet de Google, capaz de sintetizar voces que imitan aspectos como el estrés y la entonación).

De modo que Amazon ha decidido recoger el guante de Google y ponerse al día con su última actualización de Amazon Polly y hace unas horas, anunció que su nuevo conversor neuronal de texto a habla estaba por fin disponible para el público general.

Julien Simon, 'evangelista' tecnológico de Amazon Web Services, afirma que el nuevo sistema de generación de voz ofrece "mejoras significativas" en la calidad de la misma, gracias a un aumento de la naturalidad y la expresividad.

En Xataka

No te creas nada de lo que oigas, llegan los "deep fakes" de audio

"La calidad de voz es sin duda importante, pero se pueden hacer más cosas para lograr que una voz sintética suene aún más realista y atractiva. [...] El oído humano puede distinguir la diferencia entre unos informativos, un programa deportivo, una clase en la universidad, etc.

De hecho, la mayoría de los seres humanos adoptan el estilo de expresión adecuado al contexto, y esto sin duda ayuda a transmitir su mensaje".

El 'modo presentador'

Por eso, además de la voz sintética por defecto de Amazon Polly (que ya muestra una mejora frente a la original gracias al uso de las redes neuronales), la plataforma ofrece una segunda voz conocida como "Modo presentador", con realismo mejorado y destinada a la lectura de textos de prensa, que vienen usando desde hace unos meses en sus productos varias compañías (y varios dispositivos basados en Alexa).

A continuación puede apreciarse las diferencias de expresividad entre ambas versiones:

Voz estándar:

Voz del 'Modo presentador'

Según la compañía, el 'modo presentador' está disponible en dos voces en inglés, mientras que la versión básica está disponible en hasta 11, incluyendo tres acentos del inglés británico y ocho con acentos de Estados Unidos.

En Xataka

Google Translatotron: una tecnología que traduce la voz de un idioma a otro directamente, sin convertirla antes en texto

¿Qué hay 'bajo el capó' de esta nueva tecnología?

Las claves tecnológicas de este nuevo sistema de generación de voz artificial se desvela en un trabajo de investigación publicado a finales del año pasado ('Effect of data reduction on sequence-to-sequence neural TTS'):

El modelo de Amazon consta de dos componentes: En primer lugar, de una red neuronal generativa que convierte secuencias de fonemas en secuencias de espectrogramas, y en segundo lugar de un codificador de voz que convierte esos espectrogramas en una señal de audio continua.

El modelo funciona, además, mediante la combinación de grandes cantidades de voz estándar (neutra), con tan sólo unas pocas horas de datos de voz adicionales que muestren el modo de habla a imitar. Los nuevos datos suplementarios pueden añadirse a gusto del cliente para crear diversos estilos de habla adicionales.

Vía | Silicon Angle

Imagen | Pixabay

El 'modo presentador'

¿Qué hay 'bajo el capó' de esta nueva tecnología?

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios