La nueva inteligencia artificial de Google permite crear música a partir de órdenes escritas. El resultado es fascinante

La inteligencia artificial sigue adentrándose en los dominios del arte. Y con una versatilidad digna de los mejores maestros. A los bots ya los hemos visto filosofar, generar diseños sin más ayuda que unas cuantas indicaciones o escribir crónicas, en ocasiones, eso sí, con fortuna desigual. Y eso entre un etcétera cada vez más largo y complejo. En esa estela Google acaba de presentar su nuevo desarrollo, MusicLM, un modelo capaz de generar música a partir de pautas escritas.

Su enfoque no es del todo nuevo. Ya se han presentado otros sistemas de IA centradas en la música, como Riffusion, Dance Diffusion, Jukebox o incluso AudioML, de la propia Google. Por tener, la música generada por IA tiene su propia Eurovisión, en la que España no ha quedado nada mal parada.

Lo que hace relevante MusicLM son sus resultados —compartidos por Google y que puedes consultar en detalle, con clips de audio, en su web—, asentados a su vez en un entrenamiento alimentado con cerca de 280.000 horas de melodías.

"Supera a los sistemas anteriores"

“MusicLM es un modelo que genera música de alta fidelidad a partir de descripciones de texto como ‘una melodía de violín relajante respaldada por un riff de guitarra distorsionado’”, explican los autores del artículo, en el que reivindican que su modelo “supera a los sistemas anteriores” tanto en lo que se refiere a la calidad de audio como en su capacidad para ajustarse a las indicaciones.

“Además demostramos que MusicLM puede condicionarse tanto al texto como a una melodía, ya que puede transformar piezas silbadas y tarareadas según el estilo descrito en un pie de texto”, zanjan. El artículo está disponible en Arvix.

¿Qué muestran sus creadores? Su enorme versatilidad para generar melodías basándose en indicaciones escritas. En su listado de ejemplos se incluyen piezas compuestas a partir de pautas como “banda sonora principal de un juego arcade” o “una fusión de reggaeton y dance electrónica, con un sonido espacial y de otro mundo”. Orientaciones de partida que luego pueden completarse con otras sobre ritmos, instrumentación, repeticiones, detalles de persecución o desarrollo.

¿Quieres saber cómo suena? Aquí tienes el resultado.

AI Text-to-Music has arrived.

MusicLM is a model by Google Research that generates high-fidelity music from text descriptions. Basically just enter some text and it will create the music. 🤯

Attached video shows sample text prompts and AI generated music. pic.twitter.com/C2mII0M5zv
— Dave Lee (@heydave7) January 27, 2023

Google también ha compartido otros resultados generados a partir de descripciones diferentes, más abstractas, detalladas o incluso genéricas. En su lista de audios se incluyen por ejemplo melodías creadas con una secuencia de órdenes, lo que deriva en sintonías que cuentan una historia, igual que la banda sonora de una película. ¿Un ejemplo? Una pieza bien cohesionada, sin cortes bruscos y de un minuto de duración, que MusicLM desarrolló a partir de esta sucesión: “Hora de meditar, hora de despertar, hora de correr y hora de dar el 100%”.

Otra de las pruebas consistió en describirle cuadros de Salvador Dalí, Jacques-Louis David o Matisse, entre otros artistas, para que generase melodías con lo que esos textos recogían. Los pasajes se sacaron de enciclopedias, webs especializadas o incluso la Wikipedia. ¿Significa eso que todo en MuscicLM es perfecto? No. Hay composiciones suenan distorsionadas y cuando recurre a voces humanas —algo para lo que está preparada, a priori— estas suelen ser incomprensibles.

De momento, eso sí, tendrás que conformarte con escuchar las pruebas realizadas por los propios expertos de Google. Techcrunch apunta que Google no se plantea lanzar el modelo. Al menos de forma inmediata. Más allá de sus retos técnicos, lo cierto es que MusicLM plantea desafíos de carácter ético igual de peliagudos.

En Xataka

Las inteligencias artificiales creativas van a matar el arte otra vez. No tiene la más mínima importancia

Quizás la cuestión más espinosas de todas atañe a los derechos de autor de las muestras con la que se entrena el modelo y de las que luego se surte para generar canciones. Durante su investigación los expertos comprobaron que más o menos el 1% de las composiciones generadas por MusicLM se reproducía directamente a partir de piezas ya existentes con las que se había entrenado.

“Descubrimos que solo una pequeña fracción de los ejemplos se memorizaba con exactitud, mientras que en el 1% identificábamos una coincidencia aproximada. Insistimos en la necesidad de seguir trabajando en el futuro para hacer frente a los riesgos asociados a la generación de música.”, recogen. Nos quedan, al menos de momento, la muestra de melodías que ya ha generado MusicLM.

Imagen de portada: Possessed Photography (Unsplash)

"Supera a los sistemas anteriores"

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios