Emilia: Een grootschalige, uitgebreide, meertalige en diverse dataset voor spraakgeneratie
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation
January 27, 2025
Auteurs: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu
cs.AI
Samenvatting
Recente ontwikkelingen in spraakgeneratie worden aangedreven door grootschalige trainingsdatasets. Echter, huidige modellen slagen er niet in om de spontaniteit en variabiliteit die inherent zijn aan menselijke spraak in de echte wereld vast te leggen, vanwege hun afhankelijkheid van audioboekdatasets die beperkt zijn tot formele voorleesstijlen. Om deze kloof te overbruggen, introduceren we Emilia-Pipe, een open-source voorverwerkingspijplijn om hoogwaardige trainingsgegevens te extraheren uit waardevolle maar onderbelichte in-the-wild gegevens die spontane menselijke spraak in echte contexten vastleggen. Door gebruik te maken van Emilia-Pipe, construeren we Emilia, de eerste meertalige spraakgeneratiedataset afgeleid van in-the-wild spraakgegevens. Deze dataset omvat meer dan 101k uur spraak in zes talen: Engels, Chinees, Duits, Frans, Japans en Koreaans. Bovendien breiden we Emilia uit naar Emilia-Large, een dataset van meer dan 216k uur, waardoor het de grootste open-source spraakgeneratiedataset is die beschikbaar is. Uitgebreide experimenten tonen aan dat Emilia aanzienlijk beter presteert dan traditionele audioboekdatasets bij het genereren van spontane en menselijke spraak, met een superieure prestatie in het vastleggen van diverse sprekerstemmen en spreekstijlen van menselijke spraak in de echte wereld. Bovendien benadrukt dit werk het belang van het vergroten van de datasetgrootte om spraakgeneratieonderzoek vooruit te helpen en valideert het de effectiviteit van Emilia voor zowel meertalige als crosslinguale spraakgeneratie.
English
Recent advancements in speech generation have been driven by the large-scale
training datasets. However, current models fall short of capturing the
spontaneity and variability inherent in real-world human speech, due to their
reliance on audiobook datasets limited to formal read-aloud speech styles. To
bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing
pipeline to extract high-quality training data from valuable yet underexplored
in-the-wild data that capture spontaneous human speech in real-world contexts.
By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech
generation dataset derived from in-the-wild speech data. This dataset comprises
over 101k hours of speech across six languages: English, Chinese, German,
French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a
dataset exceeding 216k hours, making it the largest open-source speech
generation dataset available. Extensive experiments demonstrate that Emilia
significantly outperforms traditional audiobook datasets in generating
spontaneous and human-like speech, showcasing superior performance in capturing
diverse speaker timbre and speaking styles of real-world human speech.
Furthermore, this work underscores the importance of scaling dataset size to
advance speech generation research and validates the effectiveness of Emilia
for both multilingual and crosslingual speech generation.Summary
AI-Generated Summary