PerceiverS: 장기간 표현적인 상징적 음악 생성을 위한 효과적인 세분화를 갖춘 멀티-스케일 퍼시버

PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation

November 13, 2024
저자: Yungang Yi, Weihua Li, Matthew Kuo, Quan Bai
cs.AI

초록

음악 생성은 특히 오디오 생성 분야에서 크게 발전해 왔습니다. 그러나 긴 구조를 갖고 있으면서도 표현력이 풍부한 상징적 음악을 생성하는 것은 여전히 중요한 과제입니다. 본 논문에서는 이 문제를 해결하기 위해 효과적인 분할과 다중 규모 주의 메커니즘을 활용한 혁신적인 아키텍처인 PerceiverS (Segmentation and Scale)를 제안합니다. 우리의 접근 방식은 장기 구조 의존성과 단기 표현적 세부 사항을 동시에 학습함으로써 상징적 음악 생성을 향상시킵니다. 다중 규모 설정에서 교차 주의와 자기 주의를 결합함으로써 PerceiverS는 장거리 음악 구조를 포착하면서 연주 세부 사항을 보존합니다. Maestro와 같은 데이터셋에서 평가된 제안된 모델은 일관된 다양한 음악을 생성하는 데 구조적 일관성과 표현적 변화를 모두 갖추고 있음을 입증합니다. 프로젝트 데모 및 생성된 음악 샘플은 다음 링크를 통해 액세스할 수 있습니다: https://perceivers.github.io.
English
Music generation has progressed significantly, especially in the domain of audio generation. However, generating symbolic music that is both long-structured and expressive remains a significant challenge. In this paper, we propose PerceiverS (Segmentation and Scale), a novel architecture designed to address this issue by leveraging both Effective Segmentation and Multi-Scale attention mechanisms. Our approach enhances symbolic music generation by simultaneously learning long-term structural dependencies and short-term expressive details. By combining cross-attention and self-attention in a Multi-Scale setting, PerceiverS captures long-range musical structure while preserving performance nuances. The proposed model, evaluated on datasets like Maestro, demonstrates improvements in generating coherent and diverse music with both structural consistency and expressive variation. The project demos and the generated music samples can be accessed through the link: https://perceivers.github.io.

Summary

AI-Generated Summary

PDF62November 14, 2024