XMusic: Auf dem Weg zu einem generalisierten und steuerbaren symbolischen Musikgenerierungsrahmen
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
January 15, 2025
Autoren: Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
cs.AI
Zusammenfassung
In den letzten Jahren wurden bemerkenswerte Fortschritte bei der Generierung von künstlicher Intelligenz erzeugten Inhalten (KI-EC) auf den Gebieten der Bildsynthese und Textgenerierung erzielt, wodurch Inhalte erzeugt wurden, die mit denen von Menschen vergleichbar sind. Die Qualität von KI-generierter Musik hat jedoch noch nicht diesen Standard erreicht, hauptsächlich aufgrund der Herausforderung, musikalische Emotionen effektiv zu kontrollieren und hochwertige Ergebnisse sicherzustellen. Dieses Papier stellt ein generalisiertes symbolisches Musikgenerierungsframework, XMusic, vor, das flexible Eingaben (d. h. Bilder, Videos, Texte, Tags und Summen) unterstützt, um emotional kontrollierbare und hochwertige symbolische Musik zu generieren. XMusic besteht aus zwei Kernkomponenten, XProjector und XComposer. XProjector analysiert die Eingaben verschiedener Modalitäten in symbolische Musikelemente (d. h. Emotionen, Genres, Rhythmen und Noten) im Projektionsraum, um passende Musik zu generieren. XComposer enthält einen Generator und einen Selektor. Der Generator erzeugt emotional kontrollierbare und melodiöse Musik basierend auf unserer innovativen symbolischen Musikrepräsentation, während der Selektor hochwertige symbolische Musik identifiziert, indem er ein Multi-Task-Lernschema mit Qualitätsbewertung, Emotionserkennung und Genreerkennungsaufgaben erstellt. Darüber hinaus haben wir XMIDI erstellt, einen groß angelegten symbolischen Musikdatensatz, der 108.023 MIDI-Dateien enthält, die mit präzisen Emotions- und Genre-Labels versehen sind. Objektive und subjektive Bewertungen zeigen, dass XMusic die aktuellen State-of-the-Art-Methoden mit beeindruckender Musikqualität signifikant übertrifft. Unser XMusic wurde als eines der neun Highlights der Sammlerstücke bei WAIC 2023 ausgezeichnet. Die Projekt-Homepage von XMusic ist https://xmusic-project.github.io.
English
In recent years, remarkable advancements in artificial intelligence-generated
content (AIGC) have been achieved in the fields of image synthesis and text
generation, generating content comparable to that produced by humans. However,
the quality of AI-generated music has not yet reached this standard, primarily
due to the challenge of effectively controlling musical emotions and ensuring
high-quality outputs. This paper presents a generalized symbolic music
generation framework, XMusic, which supports flexible prompts (i.e., images,
videos, texts, tags, and humming) to generate emotionally controllable and
high-quality symbolic music. XMusic consists of two core components, XProjector
and XComposer. XProjector parses the prompts of various modalities into
symbolic music elements (i.e., emotions, genres, rhythms and notes) within the
projection space to generate matching music. XComposer contains a Generator and
a Selector. The Generator generates emotionally controllable and melodious
music based on our innovative symbolic music representation, whereas the
Selector identifies high-quality symbolic music by constructing a multi-task
learning scheme involving quality assessment, emotion recognition, and genre
recognition tasks. In addition, we build XMIDI, a large-scale symbolic music
dataset that contains 108,023 MIDI files annotated with precise emotion and
genre labels. Objective and subjective evaluations show that XMusic
significantly outperforms the current state-of-the-art methods with impressive
music quality. Our XMusic has been awarded as one of the nine Highlights of
Collectibles at WAIC 2023. The project homepage of XMusic is
https://xmusic-project.github.io.Summary
AI-Generated Summary