MusicLM: Inteligencia artificial para generar música a partir de texto

A mediados de diciembre hablamos sobre Riffusion, una variante de Stable Diffusion que nos permite crear música con inteligencia artificial, a partir de un simple texto. El tiempo está a favor de los algoritmos, y con cada nuevo proyecto obtenemos resultados más precisos. Hoy es el turno de Google Research, que acaba de presentar a MusicLM. Además de crear audio en 24 KHz, este modelo soporta condiciones especiales como la generación de melodías largas, y un «modo historia» para preparar secuencias.

La explosión viral de ChatGPT provocó un «código rojo» en Google. El gigante de Mountain View utiliza inteligencia artificial en varios niveles, pero todo parece indicar que se aproxima una ola de nuevos proyectos como respuesta directa al chatbot de OpenAI. Dicho de otra forma, Google necesita enseñar al público sus cartas un poco más, y una de ellas es MusicLM. Este trabajo de Google Research nos propone algo muy interesante: Generar música con inteligencia artificial, usando una simple descripción.

MusicLM: ¿Cómo suena la música hecha con inteligencia artificial?

Así es: MusicLM puede inspirarse en pinturas

La página de demostración no posee un modelo activo de MusicLM, pero está repleta de ejemplos acompañados por sus respectivos prompts. El entrenamiento de MusicLM se basa en «un gran dataset de música sin etiquetas», y en otro dataset llamado MusicCaps, con un total de 5.521 combinaciones de música y texto. Las descripciones de MusicCaps fueron creadas por humanos, y el audio asociado proviene de AudioSet, una colección con más de dos millones de clips de audio (diez segundos de duración), extraídos de YouTube.

https://www.neoteo.com/wp-content/uploads/2023/01/audio.mp3

«The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.»

Los resultados de MusicLM están divididos en varias categorías. La primera de ellas es «Rich Captions», con muestras de 30 segundos basadas en una breve descripción. «Long Generation» nos enseña el potencial del modelos para crear canciones completas con una duración de cinco minutos. «Story Mode» convierte a las descripciones en secuencias con intervalos definidos, «Text and Melody Conditioning» combina el texto del prompt con una melodía de referencia, y «Painting Caption Conditioning» genera audio inspirado en una pintura o imagen.

Story Mode convierte al prompt en una secuencia a seguir

A eso se suma la capacidad de MusicLM para reproducir instrumentos y géneros específicos, niveles de experiencia musical (un pianista novato o un maestro violinista), lugares, épocas, y más. Sin embargo, todo lo que tenemos hasta aquí son sus ejemplos oficiales. Google Research confirmó que «no hay planes» para compartir modelos por ahora, y tienen muchos desafíos por delante (hipotéticos problemas de copyright, sesgo cultural, etc.).

Sitio oficial: Haz clic aquí

MusicLM: Inteligencia artificial para generar música a partir de texto

Aún no estamos seguros si podemos llamarla «música», pero…

MusicLM: ¿Cómo suena la música hecha con inteligencia artificial?

Escrito por Lisandro Pardo

Los mejores clientes de correo electrónico gratuitos

Google anuncia el retiro de su servicio Google Reader

Send to Kindle: envía artículos de la web a tu Kindle

Streamified: Un elegante RSS de social media

Los mejores lectores de Feeds RSS

¿Doom en Word? ¡Sí, Doom en Word!

SteamOS se expande más allá de la Steam Deck

Comenzó el FUD: Microsoft presenta ads a usuarios de Windows 10 para cambiar sus PCs

El «setup» de Windows 95 usaba tres sistemas operativos. ¿Por qué?

Microsoft comienza a ofrecer imágenes ISO de Windows 11 para equipos ARM

Windows 3.11 en tu navegador, con juegos y apps

Cobalt: Un «downloader universal» para reproducir contenido offline

Los mejores buscadores de la Deep Web

Conoce al modelo original del Enterprise que estuvo desaparecido por décadas

Cómo saber el nombre de una película

Conoce la verdadera «trampa» de las máquinas de peluches

¿Quieres un adaptador de cassette con Bluetooth? ¡Hazlo tú mismo!

¿Hay que destruir a las inteligencias artificiales? La primera respuesta tiene 161 años