ChatPaper.aiChatPaper

MOSEL: 오픈 소스 음성 기반 모델 훈련을 위한 950,000 시간의 음성 데이터 EU 언어에 대한 모델 훈련

MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages

October 1, 2024
저자: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
cs.AI

초록

기초 모델(FMs)의 등장과 그들의 위험과 영향을 다루는 규제 노력들은 오픈 소스 모델에 대한 상당한 관심을 불러일으켰다. 그러나 기존의 음성 기초 모델(SFMs)은 완전한 오픈 소스 원칙을 준수하지 못하는데, 이는 그렇다고 주장하더라도 해당 SFM이 모델 가중치, 코드, 그리고 훈련 데이터를 공개적으로 오픈 소스 조건하에 제공하지 않기 때문이다. 본 연구에서는 유럽 연합(EU)의 24개 공식 언어에 초점을 맞추어 이러한 공백을 채우기 위한 첫 번째 단계를 밟아간다. 우리는 자동 음성 인식 데이터셋과 오픈 소스 준수 라이선스에 따른 미분류 음성 말뭉치를 조사하여 총 950,000시간의 적합한 훈련 데이터를 수집했다. 게다가, 우리는 441,000시간의 미분류 데이터에 대한 자동 트랜스크립트를 허용적인 CC-BY 라이선스로 공개함으로써 EU 언어에 대한 오픈 소스 SFM의 작성을 용이하게 했다.
English
The rise of foundation models (FMs), coupled with regulatory efforts addressing their risks and impacts, has sparked significant interest in open-source models. However, existing speech FMs (SFMs) fall short of full compliance with the open-source principles, even if claimed otherwise, as no existing SFM has model weights, code, and training data publicly available under open-source terms. In this work, we take the first step toward filling this gap by focusing on the 24 official languages of the European Union (EU). We collect suitable training data by surveying automatic speech recognition datasets and unlabeled speech corpora under open-source compliant licenses, for a total of 950k hours. Additionally, we release automatic transcripts for 441k hours of unlabeled data under the permissive CC-BY license, thereby facilitating the creation of open-source SFMs for the EU languages.

Summary

AI-Generated Summary

PDF152November 16, 2024