XMusic: К обобщенной и управляемой символьной генерации музыки_Framework
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
January 15, 2025
Авторы: Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
cs.AI
Аннотация
В последние годы в области синтеза изображений и генерации текста были достигнуты значительные прорывы в области создания контента, сгенерированного искусственным интеллектом (ИИКИ), создающего контент, сравнимый с тем, что производят люди. Однако качество музыки, созданной ИИ, пока не достигло этого уровня, в основном из-за сложности эффективного контроля музыкальных эмоций и обеспечения высококачественных результатов. В данной статье представлена обобщенная символьная система генерации музыки, XMusic, которая поддерживает гибкие подсказки (т.е. изображения, видео, тексты, теги и напевы) для создания эмоционально управляемой и высококачественной символьной музыки. XMusic состоит из двух основных компонентов, XProjector и XComposer. XProjector анализирует подсказки различных модальностей и преобразует их в символьные музыкальные элементы (т.е. эмоции, жанры, ритмы и ноты) в пространстве проекции для создания соответствующей музыки. XComposer содержит Генератор и Селектор. Генератор создает эмоционально управляемую и мелодичную музыку на основе нашего инновационного представления символьной музыки, в то время как Селектор идентифицирует высококачественную символьную музыку, создавая схему обучения с несколькими задачами, включающую оценку качества, распознавание эмоций и жанров. Кроме того, мы создали XMIDI, крупномасштабный набор данных символьной музыки, содержащий 108 023 файлов MIDI с точными метками эмоций и жанров. Объективные и субъективные оценки показывают, что XMusic значительно превосходит текущие передовые методы с впечатляющим качеством музыки. Наш XMusic был признан одним из девяти Лучших коллекций на WAIC 2023. Домашняя страница проекта XMusic: https://xmusic-project.github.io.
English
In recent years, remarkable advancements in artificial intelligence-generated
content (AIGC) have been achieved in the fields of image synthesis and text
generation, generating content comparable to that produced by humans. However,
the quality of AI-generated music has not yet reached this standard, primarily
due to the challenge of effectively controlling musical emotions and ensuring
high-quality outputs. This paper presents a generalized symbolic music
generation framework, XMusic, which supports flexible prompts (i.e., images,
videos, texts, tags, and humming) to generate emotionally controllable and
high-quality symbolic music. XMusic consists of two core components, XProjector
and XComposer. XProjector parses the prompts of various modalities into
symbolic music elements (i.e., emotions, genres, rhythms and notes) within the
projection space to generate matching music. XComposer contains a Generator and
a Selector. The Generator generates emotionally controllable and melodious
music based on our innovative symbolic music representation, whereas the
Selector identifies high-quality symbolic music by constructing a multi-task
learning scheme involving quality assessment, emotion recognition, and genre
recognition tasks. In addition, we build XMIDI, a large-scale symbolic music
dataset that contains 108,023 MIDI files annotated with precise emotion and
genre labels. Objective and subjective evaluations show that XMusic
significantly outperforms the current state-of-the-art methods with impressive
music quality. Our XMusic has been awarded as one of the nine Highlights of
Collectibles at WAIC 2023. The project homepage of XMusic is
https://xmusic-project.github.io.Summary
AI-Generated Summary