XMusic: 一般化および制御可能な記号的音楽生成フレームワークに向けて

XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

January 15, 2025
著者: Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
cs.AI

要旨

近年、画像合成やテキスト生成の分野において、人間が生成したコンテンツに匹敵するコンテンツを生成する人工知能によるコンテンツ(AIGC)の著しい進歩が達成されています。しかし、AIによる音楽生成の品質はまだこの水準に達しておらず、主に音楽の感情を効果的に制御し、高品質な出力を確保するという課題があります。本論文では、柔軟なプロンプト(画像、動画、テキスト、タグ、ハミング)をサポートし、感情をコントロール可能で高品質な象徴的音楽を生成する一般的な象徴的音楽生成フレームワークであるXMusicを提案します。XMusicは、XProjectorとXComposerの2つの中核コンポーネントから構成されています。XProjectorは、さまざまなモダリティのプロンプトを象徴的音楽要素(感情、ジャンル、リズム、音符)に解析し、一致する音楽を生成するための射影空間内に配置します。XComposerには、GeneratorとSelectorが含まれています。Generatorは、革新的な象徴的音楽表現に基づいて感情をコントロール可能でメロディアスな音楽を生成し、Selectorは、品質評価、感情認識、ジャンル認識のタスクを含むマルチタスク学習スキームを構築することで高品質な象徴的音楽を特定します。さらに、正確な感情とジャンルのラベルが付けられた108,023のMIDIファイルを含む大規模な象徴的音楽データセットであるXMIDIを構築しています。客観的および主観的評価により、XMusicは印象的な音楽品質で現行の最先端技術を大幅に上回ることが示されています。当社のXMusicは、2023年のWAICでコレクタブルのハイライトの1つとして選ばれました。XMusicのプロジェクトホームページはhttps://xmusic-project.github.ioです。
English
In recent years, remarkable advancements in artificial intelligence-generated content (AIGC) have been achieved in the fields of image synthesis and text generation, generating content comparable to that produced by humans. However, the quality of AI-generated music has not yet reached this standard, primarily due to the challenge of effectively controlling musical emotions and ensuring high-quality outputs. This paper presents a generalized symbolic music generation framework, XMusic, which supports flexible prompts (i.e., images, videos, texts, tags, and humming) to generate emotionally controllable and high-quality symbolic music. XMusic consists of two core components, XProjector and XComposer. XProjector parses the prompts of various modalities into symbolic music elements (i.e., emotions, genres, rhythms and notes) within the projection space to generate matching music. XComposer contains a Generator and a Selector. The Generator generates emotionally controllable and melodious music based on our innovative symbolic music representation, whereas the Selector identifies high-quality symbolic music by constructing a multi-task learning scheme involving quality assessment, emotion recognition, and genre recognition tasks. In addition, we build XMIDI, a large-scale symbolic music dataset that contains 108,023 MIDI files annotated with precise emotion and genre labels. Objective and subjective evaluations show that XMusic significantly outperforms the current state-of-the-art methods with impressive music quality. Our XMusic has been awarded as one of the nine Highlights of Collectibles at WAIC 2023. The project homepage of XMusic is https://xmusic-project.github.io.

Summary

AI-Generated Summary

PDF92January 16, 2025