NeKo: Naar Postherkenningsgeneratiecorrectie met Grote Taalmodellen met Taakgerichte Experts

NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts

November 8, 2024
Auteurs: Yen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang
cs.AI

Samenvatting

Het opzetten van een algemene foutcorrector na herkenning stelt een cruciale vraag: hoe kunnen we op de meest effectieve manier een model trainen op een grote mix van domeindatasets? Het antwoord zou liggen in het leren van dataset-specifieke kenmerken en het verwerken van hun kennis in een enkel model. Eerdere methoden bereiken dit door aparte correctietaalmodellen te hebben, wat resulteert in een aanzienlijke toename van parameters. In dit werk presenteren we Mixture-of-Experts als een oplossing, waarbij we benadrukken dat MoE's veel meer zijn dan een schaalbaarheidstool. We stellen een Multi-Task Correction MoE voor, waarbij we de experts trainen om een "expert" te worden in spraak-naar-tekst, taal-naar-tekst en visie-naar-tekst datasets door te leren om de tokens van elke dataset naar de bijbehorende expert te routeren. Experimenten op de Open ASR Leaderboard tonen aan dat we een nieuwe state-of-the-art prestatie verkennen door een gemiddelde relatieve 5,0% WER-vermindering te behalen en aanzienlijke verbeteringen in BLEU-scores voor spraak- en vertaaltaken. Bij zero-shot evaluatie presteert NeKo beter dan GPT-3.5 en Claude-Opus met een relatieve WER-vermindering van 15,5% tot 27,6% in de Hyporadise benchmark. NeKo presteert competitief op grammatica- en post-OCR-correctie als een multi-task model.
English
Construction of a general-purpose post-recognition error corrector poses a crucial question: how can we most effectively train a model on a large mixture of domain datasets? The answer would lie in learning dataset-specific features and digesting their knowledge in a single model. Previous methods achieve this by having separate correction language models, resulting in a significant increase in parameters. In this work, we present Mixture-of-Experts as a solution, highlighting that MoEs are much more than a scalability tool. We propose a Multi-Task Correction MoE, where we train the experts to become an ``expert'' of speech-to-text, language-to-text and vision-to-text datasets by learning to route each dataset's tokens to its mapped expert. Experiments on the Open ASR Leaderboard show that we explore a new state-of-the-art performance by achieving an average relative 5.0% WER reduction and substantial improvements in BLEU scores for speech and translation tasks. On zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to 27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs competitively on grammar and post-OCR correction as a multi-task model.

Summary

AI-Generated Summary

PDF42November 12, 2024