CLaMP 3: 정렬되지 않은 모달리티와 보이지 않는 언어 간의 범용 음악 정보 검색
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
February 14, 2025
저자: Shangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
cs.AI
초록
CLaMP 3은 음악 정보 검색에서의 크로스 모달 및 크로스 링구얼 일반화 문제를 해결하기 위해 개발된 통합 프레임워크입니다. 대조 학습을 활용하여 악보, 연주 신호, 오디오 녹음 등 주요 음악 모달리티를 다국어 텍스트와 공유 표현 공간에서 정렬함으로써, 텍스트를 매개로 하여 정렬되지 않은 모달리티 간의 검색을 가능하게 합니다. 이 프레임워크는 보이지 않는 언어에도 적응 가능한 다국어 텍스트 인코더를 특징으로 하며, 강력한 크로스 링구얼 일반화 능력을 보여줍니다. 검색 강화 생성을 활용하여, 우리는 231만 개의 음악-텍스트 쌍으로 구성된 웹 스케일 데이터셋인 M4-RAG를 구축했습니다. 이 데이터셋은 다양한 전 세계 음악 전통을 대표하는 상세한 메타데이터로 풍부하게 구성되어 있습니다. 향후 연구를 촉진하기 위해, 우리는 악보, 오디오, 그리고 풍부하게 다양한 텍스트 설명으로 구성된 1,000개의 트리플렛을 포함한 벤치마크인 WikiMT-X를 공개합니다. 실험 결과, CLaMP 3은 여러 음악 정보 검색 작업에서 최첨단 성능을 달성하며, 이전의 강력한 베이스라인을 크게 능가하고 다중 모달 및 다국어 음악 컨텍스트에서 탁월한 일반화 능력을 입증했습니다.
English
CLaMP 3 is a unified framework developed to address challenges of cross-modal
and cross-lingual generalization in music information retrieval. Using
contrastive learning, it aligns all major music modalities--including sheet
music, performance signals, and audio recordings--with multilingual text in a
shared representation space, enabling retrieval across unaligned modalities
with text as a bridge. It features a multilingual text encoder adaptable to
unseen languages, exhibiting strong cross-lingual generalization. Leveraging
retrieval-augmented generation, we curated M4-RAG, a web-scale dataset
consisting of 2.31 million music-text pairs. This dataset is enriched with
detailed metadata that represents a wide array of global musical traditions. To
advance future research, we release WikiMT-X, a benchmark comprising 1,000
triplets of sheet music, audio, and richly varied text descriptions.
Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple
MIR tasks, significantly surpassing previous strong baselines and demonstrating
excellent generalization in multimodal and multilingual music contexts.Summary
AI-Generated Summary