MusicGen es un modelo simple de lenguaje, desarrollado bajo un enfoque de una sola etapa con patrones de tokens eficientes entrelazados -con EnCodec audio de 32Khz-, que reduce la necesidad de conectar en cascada varios modelos, como explican los investigadores de Audiocraft.
Lea más: Amazon music explorará el vínculo entre la música latina y el rap con "Hip-Hop X siempre!
A partir de este enfoque, MusicGen genera muestras de música de alta calidad, de unos doce segundos de duración, con solo introducir una breve descripción en texto y una referencia de la melodía que se busca obtener.
Lea más: Paul McCartney dice que inteligencia artificial ayudó a terminar un disco de los Beatles
La compañía tecnológica ha publicado en el portal Hugging Face AI una demostración de MusicGen, con la que cualquier usuario puede generar una muestra de música. Añade, también, una serie de ejemplos de las descripciones, en algunos casos acompañados de descripción melódica.
Los investigadores han utilizado para el entrenamiento más de 20.000 horas de música con licencia, incluidas 10.000 pistas de alta calidad procedentes de una base de datos interna, y datos sacados de Shutterstock y Pond5.