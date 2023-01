El plan de Microsoft para implementar ChatGPT dentro de sus principales soluciones sigue en marcha. Llegará a Bing en el primer trimestre de este mismo año, y ya hay información sobre cercanas implementaciones dentro de la suite de Office. Pero ChatGPT no está solo, Microsoft tiene un nuevo as bajo la manga.

Su nombre es VALL-E, y se trata de un modelo de lenguaje para la síntesis de texto a voz (TTS). Microsoft promete que tan solo necesita tres segundos de grabación de audio para que el sistema sea capaz de imitar la voz de la misma.

Microsoft quiere inteligencia artificial en todo

Microsoft tiene un nuevo modelo de texto a voz que es capaz de imitar cualquier voz con una grabación de tan solo tres segundos. Uno de los puntos más interesantes que comparte la empresa en su documentación, es que están desarrollando VALL-E para que funcione con otros modelos de IA generativa, como GPT-3.

En otras palabras, la propia ChatGPT sería capaz de ofrecernos resultados de voz una vez integrado este modelo. Un "imita la voz de chiquito de la calzada" sería posible, siempre y cuando se haya realizado el entrenamiento previo necesario para ello.

Los ejemplos que muestra Microsoft son sencillamente espectaculares. En ellos, nos muestra cuál ha sido la entrada de audio que se ha tomado como base, los pasos intermedios y el resultado final de VALL-E. El modelo no solo es capaz de imitar la voz, sino la propia cadencia original del lenguaje y el tono original con el que se ha grabado la entrada de voz.

Esto no es algo especialmente nuevo, y es que Google ya presumía de modelos similares hace años. No obstante, las aplicaciones de las IAs más potentes de Google en soluciones populares no están tan presentes como planea Microsoft. Tendremos inteligencia artificial en el navegador, en las apps de ofimática y, como detallan ahora, esta IA también será de voz.