XMusic: Verso un Framework di Generazione Musicale Simbolica Generalizzato e Controllabile
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
January 15, 2025
Autori: Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
cs.AI
Abstract
Negli ultimi anni, sono stati raggiunti notevoli progressi nella generazione di contenuti tramite intelligenza artificiale (AIGC) nei campi della sintesi delle immagini e della generazione di testi, generando contenuti paragonabili a quelli prodotti dagli esseri umani. Tuttavia, la qualità della musica generata dall'IA non ha ancora raggiunto questo standard, principalmente a causa della sfida di controllare efficacemente le emozioni musicali e garantire output di alta qualità. Questo articolo presenta un framework generalizzato per la generazione di musica simbolica, XMusic, che supporta prompt flessibili (ad esempio immagini, video, testi, tag e canto) per generare musica simbolica emotivamente controllabile e di alta qualità. XMusic è composto da due componenti principali, XProjector e XComposer. XProjector analizza i prompt di varie modalità in elementi musicali simbolici (ad esempio emozioni, generi, ritmi e note) nello spazio di proiezione per generare musica corrispondente. XComposer contiene un Generatore e un Selettore. Il Generatore genera musica emotivamente controllabile e melodiosa basata sulla nostra innovativa rappresentazione della musica simbolica, mentre il Selettore identifica musica simbolica di alta qualità costruendo uno schema di apprendimento multi-task che coinvolge valutazioni di qualità, riconoscimento delle emozioni e riconoscimento dei generi. Inoltre, abbiamo creato XMIDI, un dataset di musica simbolica su larga scala che contiene 108.023 file MIDI annotati con precise etichette di emozioni e generi. Valutazioni oggettive e soggettive mostrano che XMusic supera significativamente i metodi attuali più avanzati con un'ottima qualità musicale. Il nostro XMusic è stato premiato come uno dei nove Highlights di Collectibles al WAIC 2023. La homepage del progetto XMusic è https://xmusic-project.github.io.
English
In recent years, remarkable advancements in artificial intelligence-generated
content (AIGC) have been achieved in the fields of image synthesis and text
generation, generating content comparable to that produced by humans. However,
the quality of AI-generated music has not yet reached this standard, primarily
due to the challenge of effectively controlling musical emotions and ensuring
high-quality outputs. This paper presents a generalized symbolic music
generation framework, XMusic, which supports flexible prompts (i.e., images,
videos, texts, tags, and humming) to generate emotionally controllable and
high-quality symbolic music. XMusic consists of two core components, XProjector
and XComposer. XProjector parses the prompts of various modalities into
symbolic music elements (i.e., emotions, genres, rhythms and notes) within the
projection space to generate matching music. XComposer contains a Generator and
a Selector. The Generator generates emotionally controllable and melodious
music based on our innovative symbolic music representation, whereas the
Selector identifies high-quality symbolic music by constructing a multi-task
learning scheme involving quality assessment, emotion recognition, and genre
recognition tasks. In addition, we build XMIDI, a large-scale symbolic music
dataset that contains 108,023 MIDI files annotated with precise emotion and
genre labels. Objective and subjective evaluations show that XMusic
significantly outperforms the current state-of-the-art methods with impressive
music quality. Our XMusic has been awarded as one of the nine Highlights of
Collectibles at WAIC 2023. The project homepage of XMusic is
https://xmusic-project.github.io.Summary
AI-Generated Summary