NeKo: Auf dem Weg zu post Recognition Generative Correction Large Language Models mit aufgabenorientierten Experten

NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts

November 8, 2024
Autoren: Yen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang
cs.AI

Zusammenfassung

Die Konstruktion eines allgemeinen Fehlerkorrektors nach der Erkennung wirft eine entscheidende Frage auf: Wie können wir ein Modell am effektivsten auf eine große Mischung von Domänendatensätzen trainieren? Die Antwort liegt darin, datensatzspezifische Merkmale zu erlernen und ihr Wissen in einem einzigen Modell zu verarbeiten. Frühere Methoden erreichen dies, indem sie separate Korrektur-Sprachmodelle haben, was zu einer signifikanten Zunahme der Parameter führt. In dieser Arbeit präsentieren wir Mixture-of-Experts als Lösung und betonen, dass MoEs weit mehr als nur ein Skalierungswerkzeug sind. Wir schlagen ein Multi-Task Correction MoE vor, bei dem wir die Experten trainieren, zu einem "Experten" für Sprache-zu-Text-, Sprache-zu-Text- und Bild-zu-Text-Datensätze zu werden, indem wir lernen, die Token jedes Datensatzes an seinen zugeordneten Experten zu leiten. Experimente auf dem Open ASR Leaderboard zeigen, dass wir einen neuen State-of-the-Art-Leistungsstand erreichen, indem wir eine durchschnittliche relative WER-Reduktion von 5,0 % erzielen und signifikante Verbesserungen bei BLEU-Werten für Sprach- und Übersetzungsaufgaben erzielen. Bei der Zero-Shot-Evaluation übertrifft NeKo GPT-3.5 und Claude-Opus mit einer relativen WER-Reduktion von 15,5 % bis 27,6 % im Hyporadise-Benchmark. NeKo schneidet als Multi-Task-Modell im Bereich Grammatik- und Post-OCR-Korrektur wettbewerbsfähig ab.
English
Construction of a general-purpose post-recognition error corrector poses a crucial question: how can we most effectively train a model on a large mixture of domain datasets? The answer would lie in learning dataset-specific features and digesting their knowledge in a single model. Previous methods achieve this by having separate correction language models, resulting in a significant increase in parameters. In this work, we present Mixture-of-Experts as a solution, highlighting that MoEs are much more than a scalability tool. We propose a Multi-Task Correction MoE, where we train the experts to become an ``expert'' of speech-to-text, language-to-text and vision-to-text datasets by learning to route each dataset's tokens to its mapped expert. Experiments on the Open ASR Leaderboard show that we explore a new state-of-the-art performance by achieving an average relative 5.0% WER reduction and substantial improvements in BLEU scores for speech and translation tasks. On zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to 27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs competitively on grammar and post-OCR correction as a multi-task model.

Summary

AI-Generated Summary

PDF42November 12, 2024