XMusic: Rumo a um Framework de Geração de Música Simbólica Generalizado e Controlável
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
January 15, 2025
Autores: Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
cs.AI
Resumo
Nos últimos anos, avanços notáveis na geração de conteúdo por inteligência artificial (IA) foram alcançados nos campos da síntese de imagens e geração de texto, gerando conteúdo comparável ao produzido por humanos. No entanto, a qualidade da música gerada por IA ainda não atingiu esse padrão, principalmente devido ao desafio de controlar efetivamente as emoções musicais e garantir saídas de alta qualidade. Este artigo apresenta um framework generalizado de geração de música simbólica, XMusic, que suporta prompts flexíveis (ou seja, imagens, vídeos, textos, tags e cantarolar) para gerar música simbólica emocionalmente controlável e de alta qualidade. XMusic é composto por dois componentes principais, XProjector e XComposer. XProjector analisa os prompts de várias modalidades em elementos de música simbólica (ou seja, emoções, gêneros, ritmos e notas) dentro do espaço de projeção para gerar música correspondente. XComposer contém um Gerador e um Seletor. O Gerador gera música emocionalmente controlável e melodiosa com base em nossa representação inovadora de música simbólica, enquanto o Seletor identifica música simbólica de alta qualidade construindo um esquema de aprendizado multitarefa envolvendo avaliação de qualidade, reconhecimento de emoção e reconhecimento de gênero. Além disso, construímos XMIDI, um conjunto de dados de música simbólica em grande escala que contém 108.023 arquivos MIDI anotados com rótulos precisos de emoção e gênero. Avaliações objetivas e subjetivas mostram que XMusic supera significativamente os métodos atuais de ponta com uma qualidade musical impressionante. Nosso XMusic foi premiado como um dos nove destaques da WAIC 2023. A página inicial do projeto XMusic é https://xmusic-project.github.io.
English
In recent years, remarkable advancements in artificial intelligence-generated
content (AIGC) have been achieved in the fields of image synthesis and text
generation, generating content comparable to that produced by humans. However,
the quality of AI-generated music has not yet reached this standard, primarily
due to the challenge of effectively controlling musical emotions and ensuring
high-quality outputs. This paper presents a generalized symbolic music
generation framework, XMusic, which supports flexible prompts (i.e., images,
videos, texts, tags, and humming) to generate emotionally controllable and
high-quality symbolic music. XMusic consists of two core components, XProjector
and XComposer. XProjector parses the prompts of various modalities into
symbolic music elements (i.e., emotions, genres, rhythms and notes) within the
projection space to generate matching music. XComposer contains a Generator and
a Selector. The Generator generates emotionally controllable and melodious
music based on our innovative symbolic music representation, whereas the
Selector identifies high-quality symbolic music by constructing a multi-task
learning scheme involving quality assessment, emotion recognition, and genre
recognition tasks. In addition, we build XMIDI, a large-scale symbolic music
dataset that contains 108,023 MIDI files annotated with precise emotion and
genre labels. Objective and subjective evaluations show that XMusic
significantly outperforms the current state-of-the-art methods with impressive
music quality. Our XMusic has been awarded as one of the nine Highlights of
Collectibles at WAIC 2023. The project homepage of XMusic is
https://xmusic-project.github.io.Summary
AI-Generated Summary