Emilia: Ein umfangreiches, umfassendes, mehrsprachiges und vielfältiges Datenset für die Spracherzeugung

Zusammenfassung

Die jüngsten Fortschritte in der Spracherzeugung wurden durch die groß angelegten Trainingsdatensätze vorangetrieben. Allerdings sind aktuelle Modelle nicht in der Lage, die Spontaneität und Variabilität, die in der menschlichen Sprache der realen Welt inhärent sind, vollständig zu erfassen, da sie sich auf Hörbuchdatensätze beschränken, die auf formelle Vorlesestile beschränkt sind. Um diese Lücke zu überbrücken, stellen wir Emilia-Pipe vor, eine Open-Source-Vorverarbeitungspipeline zur Extraktion hochwertiger Trainingsdaten aus wertvollen, aber bisher unerforschten Daten aus freier Wildbahn, die spontane menschliche Sprache in realen Kontexten erfassen. Durch die Nutzung von Emilia-Pipe erstellen wir Emilia, den ersten mehrsprachigen Spracherzeugungsdatensatz, der aus Daten spontaner Sprache aus freier Wildbahn abgeleitet ist. Dieser Datensatz umfasst über 101.000 Stunden Sprache in sechs Sprachen: Englisch, Chinesisch, Deutsch, Französisch, Japanisch und Koreanisch. Darüber hinaus erweitern wir Emilia zu Emilia-Large, einem Datensatz von über 216.000 Stunden, der ihn zum größten Open-Source-Spracherzeugungsdatensatz macht. Umfangreiche Experimente zeigen, dass Emilia signifikant besser abschneidet als traditionelle Hörbuchdatensätze bei der Erzeugung spontaner und menschenähnlicher Sprache und eine überlegene Leistung bei der Erfassung verschiedener Sprecherstimmen und Sprechstilen der menschlichen Sprache der realen Welt zeigt. Darüber hinaus unterstreibt diese Arbeit die Bedeutung der Skalierung der Datensatzgröße zur Förderung der Spracherzeugungsforschung und bestätigt die Wirksamkeit von Emilia sowohl für mehrsprachige als auch für überlinguale Spracherzeugung.

English

Recent advancements in speech generation have been driven by the large-scale training datasets. However, current models fall short of capturing the spontaneity and variability inherent in real-world human speech, due to their reliance on audiobook datasets limited to formal read-aloud speech styles. To bridge this gap, we introduce Emilia-Pipe, an open-source preprocessing pipeline to extract high-quality training data from valuable yet underexplored in-the-wild data that capture spontaneous human speech in real-world contexts. By leveraging Emilia-Pipe, we construct Emilia, the first multilingual speech generation dataset derived from in-the-wild speech data. This dataset comprises over 101k hours of speech across six languages: English, Chinese, German, French, Japanese, and Korean. Besides, we expand Emilia to Emilia-Large, a dataset exceeding 216k hours, making it the largest open-source speech generation dataset available. Extensive experiments demonstrate that Emilia significantly outperforms traditional audiobook datasets in generating spontaneous and human-like speech, showcasing superior performance in capturing diverse speaker timbre and speaking styles of real-world human speech. Furthermore, this work underscores the importance of scaling dataset size to advance speech generation research and validates the effectiveness of Emilia for both multilingual and crosslingual speech generation.

Emilia: Ein umfangreiches, umfassendes, mehrsprachiges und vielfältiges Datenset für die Spracherzeugung

Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation

Zusammenfassung

Summary

Support

Support