Los de traducción son un buen ejemplo de servicios que permiten desarrollar y poner a prueba diversos modelos de inteligencia artificial. Y eso es lo que lleva años haciendo Google, como propietaria del servicio de traducción online más popular del planeta.
Los últimos avances obtenidos por los de Mountain View, en este caso, no tienen tanto que ver con la habitual traducción de texto a texto, sino de voz a voz.
Y es que Google ha conseguido superar su antiguo sistema de 'traducción en cascada', basado en tres pasos: la conversión de la voz en texto, la traducción en sí, y volver a sintetizar ésta como voz en el idioma de destino elegido.
Los primeros modelos de traducción de extremo a extremo se crearon en 2016, y un año más tarde ya se había demostrado que este tecnología podía dar mejores resultados que los modelos de cascada.
Una tecnología revolucionaria que aún posee margen de mejora
El nuevo sistema, mucho más preciso, ha sido bautizado con el nombre Translatotron, y permite la traducción directa de voz a voz. Se basa en el procesamiento de la voz como un espectrograma, utilizando un vocoder neuronal para dar forma al sonido de salida y dando la opción de usar un codificador pre-entrenado con el fin de generar una voz similar a la original.
Presenta, además, otras ventajas: se evitan ciertos errores de composición de las frases, que aparecían como consecuencia de los pasos intermedios del modelo de cascada, y maneja mejor las palabras que no requieren de traducción (como los nombres propios).
Google ha compartido en su blog corporativo sobre IA los primeros ejemplos del uso de Translatotron, recurriendo a dos breves grabaciones en español (la primera de ellas tan sencilla como "¿Qué tal? Eh... yo soy Guillermo, ¿cómo estás?"), que aparecen traducidas tanto mediante el antiguo sistema en cascada como mediante el nuevo.
Pero en esta otra web puedes acceder a una amplia gama de ejemplos de cada uno de los sistemas de traducción de voz de Google.
En el ejemplo proporcionado, claro está, la traducción es precisa; lo es en general con todas las frases cortas, segun Google, aunque reconocen que todavía tienen que trabajar más en aquellos casos en las que el emisor habla demasiado bajo o, sencillamente, no es capaz de expresar correctamente la idea (cosa relativamente habitual en el lenguaje hablado).
"Que sepamos, Translatotron es el primer modelo de extremo a extremo capaz de traducir directamente una grabación de voz de un idioma a otro, así como de retener la voz del hablante de origen en el discurso traducido. Esperamos que este trabajo puede servir como punto de partida para futuras investigaciones sobre los sistemas de traducción de voz a voz".
Vía | Google AI Blog
Ver 6 comentarios