ChatPaper.aiChatPaper

XMusic: 일반화되고 조절 가능한 심볼릭 음악 생성 프레임워크에 대한 연구

XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

January 15, 2025
저자: Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
cs.AI

초록

최근 몇 년간, 이미지 합성 및 텍스트 생성 분야에서는 인간이 생산한 콘텐츠와 유사한 콘텐츠를 생성하는 인공지능 생성 콘텐츠(AIGC)의 현저한 발전이 이루어졌다. 그러나, AI가 생성한 음악의 품질은 아직 이 수준에 도달하지 못했는데, 주로 음악적 감정을 효과적으로 제어하고 고품질 출력을 보장하는 것이 어려운 문제 때문이다. 본 논문은 유연한 프롬프트(즉, 이미지, 비디오, 텍스트, 태그 및 허밍)를 지원하여 감정을 제어할 수 있고 고품질의 상징적 음악을 생성하는 일반화된 상징적 음악 생성 프레임워크인 XMusic을 제시한다. XMusic은 XProjector와 XComposer 두 핵심 구성 요소로 구성된다. XProjector는 다양한 형식의 프롬프트(즉, 감정, 장르, 리듬 및 음표)를 상징적 음악 요소로 파싱하여 일치하는 음악을 생성하기 위해 투영 공간 내에서 처리한다. XComposer에는 Generator와 Selector가 포함되어 있다. Generator는 혁신적인 상징적 음악 표현을 기반으로 감정을 제어할 수 있고 멜로디가 있는 음악을 생성하며, Selector는 품질 평가, 감정 인식 및 장르 인식 작업을 포함하는 멀티태스크 학습 체계를 구축하여 고품질의 상징적 음악을 식별한다. 또한, 우리는 정확한 감정 및 장르 레이블이 부착된 108,023개의 MIDI 파일을 포함하는 대규모 상징적 음악 데이터셋인 XMIDI를 구축했다. 객관적 및 주관적 평가 결과, XMusic이 현재의 최첨단 방법들을 뛰어넘는 놀라운 음악 품질을 보여주었다. 우리의 XMusic은 WAIC 2023에서 수집품 중 9개 하이라이트 중 하나로 선정되었다. XMusic 프로젝트 홈페이지는 https://xmusic-project.github.io에 있다.
English
In recent years, remarkable advancements in artificial intelligence-generated content (AIGC) have been achieved in the fields of image synthesis and text generation, generating content comparable to that produced by humans. However, the quality of AI-generated music has not yet reached this standard, primarily due to the challenge of effectively controlling musical emotions and ensuring high-quality outputs. This paper presents a generalized symbolic music generation framework, XMusic, which supports flexible prompts (i.e., images, videos, texts, tags, and humming) to generate emotionally controllable and high-quality symbolic music. XMusic consists of two core components, XProjector and XComposer. XProjector parses the prompts of various modalities into symbolic music elements (i.e., emotions, genres, rhythms and notes) within the projection space to generate matching music. XComposer contains a Generator and a Selector. The Generator generates emotionally controllable and melodious music based on our innovative symbolic music representation, whereas the Selector identifies high-quality symbolic music by constructing a multi-task learning scheme involving quality assessment, emotion recognition, and genre recognition tasks. In addition, we build XMIDI, a large-scale symbolic music dataset that contains 108,023 MIDI files annotated with precise emotion and genre labels. Objective and subjective evaluations show that XMusic significantly outperforms the current state-of-the-art methods with impressive music quality. Our XMusic has been awarded as one of the nine Highlights of Collectibles at WAIC 2023. The project homepage of XMusic is https://xmusic-project.github.io.

Summary

AI-Generated Summary

PDF102January 16, 2025