ChatPaper.aiChatPaper

PDMX: 상징 음악 처리를 위한 대규모 공개 도메인 MusicXML 데이터셋

PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing

September 17, 2024
저자: Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick, Julian McAuley
cs.AI

초록

최근 생성적 AI-음악 시스템의 급격한 발전으로 데이터 저작권, 음악가로부터 음악 라이선스 획득, 그리고 오픈 소스 AI와 대형 명성 있는 기업 간의 갈등에 대한 다수의 우려가 제기되었습니다. 이러한 문제들은 특히 상징적 음악 데이터에 대한 대중적으로 이용 가능하고 저작권이 없는 음악 데이터의 부족을 강조하며, 이 문제를 완화하기 위해 우리는 PDMX를 제시합니다. PDMX는 MuseScore의 악보 공유 포럼에서 수집한 25만 개 이상의 퍼블릭 도메인 MusicXML 악보로 구성된 대규모 오픈 소스 데이터셋으로, 우리가 알기로는 가장 큰 저작권이 없는 상징적 음악 데이터셋입니다. PDMX에는 태그와 사용자 상호 작용 메타데이터가 풍부하게 포함되어 있어 데이터셋을 효율적으로 분석하고 고품질의 사용자 생성 악보를 필터링할 수 있습니다. 데이터 수집 과정에서 제공되는 추가 메타데이터를 고려하여, 우리는 다양한 대표적인 PDMX 하위 집합이 하향식 모델에서 다른 행동을 유발하는지, 그리고 사용자 평가 통계가 데이터 품질의 효과적인 측정 도구로 활용될 수 있는지를 평가하는 다중 트랙 음악 생성 실험을 수행합니다. 예시는 https://pnlong.github.io/PDMX.demo/에서 확인할 수 있습니다.
English
The recent explosion of generative AI-Music systems has raised numerous concerns over data copyright, licensing music from musicians, and the conflict between open-source AI and large prestige companies. Such issues highlight the need for publicly available, copyright-free musical data, in which there is a large shortage, particularly for symbolic music data. To alleviate this issue, we present PDMX: a large-scale open-source dataset of over 250K public domain MusicXML scores collected from the score-sharing forum MuseScore, making it the largest available copyright-free symbolic music dataset to our knowledge. PDMX additionally includes a wealth of both tag and user interaction metadata, allowing us to efficiently analyze the dataset and filter for high quality user-generated scores. Given the additional metadata afforded by our data collection process, we conduct multitrack music generation experiments evaluating how different representative subsets of PDMX lead to different behaviors in downstream models, and how user-rating statistics can be used as an effective measure of data quality. Examples can be found at https://pnlong.github.io/PDMX.demo/.

Summary

AI-Generated Summary

PDF52November 16, 2024