Emilia: Ein umfangreiches, umfassendes, mehrsprachiges und vielfältiges Datenset für die Spracherzeugung
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation
January 27, 2025
Autoren: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu
cs.AI
Zusammenfassung
Die jüngsten Fortschritte in der Spracherzeugung wurden durch die groß angelegten Trainingsdatensätze vorangetrieben. Allerdings sind aktuelle Modelle nicht in der Lage, die Spontaneität und Variabilität, die in der menschlichen Sprache der realen Welt inhärent sind, vollständig zu erfassen, da sie sich auf Hörbuchdatensätze beschränken, die auf formelle Vorlesestile beschränkt sind. Um diese Lücke zu überbrücken, stellen wir Emilia-Pipe vor, eine Open-Source-Vorverarbeitungspipeline zur Extraktion hochwertiger Trainingsdaten aus wertvollen, aber bisher unerforschten Daten aus freier Wildbahn, die spontane menschliche Sprache in realen Kontexten erfassen. Durch die Nutzung von Emilia-Pipe erstellen wir Emilia, den ersten mehrsprachigen Spracherzeugungsdatensatz, der aus Daten spontaner Sprache aus freier Wildbahn abgeleitet ist. Dieser Datensatz umfasst über 101.000 Stunden Sprache in sechs Sprachen: Englisch, Chinesisch, Deutsch, Französisch, Japanisch und Koreanisch. Darüber hinaus erweitern wir Emilia zu Emilia-Large, einem Datensatz von über 216.000 Stunden, der ihn zum größten Open-Source-Spracherzeugungsdatensatz macht. Umfangreiche Experimente zeigen, dass Emilia signifikant besser abschneidet als traditionelle Hörbuchdatensätze bei der Erzeugung spontaner und menschenähnlicher Sprache und eine überlegene Leistung bei der Erfassung verschiedener Sprecherstimmen und Sprechstilen der menschlichen Sprache der realen Welt zeigt. Darüber hinaus unterstreibt diese Arbeit die Bedeutung der Skalierung der Datensatzgröße zur Förderung der Spracherzeugungsforschung und bestätigt die Wirksamkeit von Emilia sowohl für mehrsprachige als auch für überlinguale Spracherzeugung.
English
Recent advancements in speech generation have been driven by the large-scale
training datasets. However, current models fall short of capturing the
spontaneity and variability inherent in real-world human speech, due to their
reliance on audiobook datasets limited to formal read-aloud speech styles. To
bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing
pipeline to extract high-quality training data from valuable yet underexplored
in-the-wild data that capture spontaneous human speech in real-world contexts.
By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech
generation dataset derived from in-the-wild speech data. This dataset comprises
over 101k hours of speech across six languages: English, Chinese, German,
French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a
dataset exceeding 216k hours, making it the largest open-source speech
generation dataset available. Extensive experiments demonstrate that Emilia
significantly outperforms traditional audiobook datasets in generating
spontaneous and human-like speech, showcasing superior performance in capturing
diverse speaker timbre and speaking styles of real-world human speech.
Furthermore, this work underscores the importance of scaling dataset size to
advance speech generation research and validates the effectiveness of Emilia
for both multilingual and crosslingual speech generation.Summary
AI-Generated Summary