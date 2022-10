Los generadores de imágenes a partir de texto parecen haber llegado para quedarse. Si queremos “una pintura de un lindo gatito negro en una ciudad con estilo cyberpunk” y no queremos ponernos manos a la obra con lápices o pinceles, podemos resignar parte del proceso creativo tradicional y pedirle a DALL-E, Midjourney o Stable Diffusion que haga el trabajo por nosotros.

Esto es algo sorprendente si tenemos en cuenta que hace tan solo unos años era algo inimaginable. No obstante, los avances en el campo de la inteligencia artificial son cada vez mayores. Hace unos meses empezaron a aparecer los primeros generadores de vídeos a partir de texto, y ahora es el turno de darle la bienvenida a AudioGen, un generador de audio. Un “DALL-E”, del sonido.

AudioGen es un programa de inteligencia artificial que genera sonidos a partir de descripciones textuales. Según explican los investigadores de Meta y de la Universidad Hebrea de Jerusalén, que son los responsables del proyecto, se utiliza un modelo generativo autorregresivo para interpretar los pedidos en lenguaje natural y generar desde cero muestras de audio.

We present “AudioGen: Textually Guided Audio Generation”!



AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio).



📖 Paper: https://t.co/XKctRaShN1

🎵 Samples: https://t.co/e7vWmOUfva

💻 Code & models - soon!



(1/n) pic.twitter.com/UiJaA627bv