NeKo : Vers des modèles de correction générative post-reconnaissance de grande taille avec des experts orientés tâches

NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts

November 8, 2024
Auteurs: Yen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang
cs.AI

Résumé

La construction d'un correcteur d'erreurs post-reconnaissance généraliste pose une question cruciale : comment pouvons-nous entraîner de manière plus efficace un modèle sur un large mélange d'ensembles de données de domaine ? La réponse résiderait dans l'apprentissage des caractéristiques spécifiques à chaque ensemble de données et dans l'assimilation de leurs connaissances dans un seul modèle. Les méthodes précédentes parviennent à cela en ayant des modèles de langage de correction distincts, ce qui entraîne une augmentation significative des paramètres. Dans ce travail, nous présentons le Mélange d'Experts comme solution, en soulignant que les MoEs sont bien plus qu'un outil de scalabilité. Nous proposons un MoE de Correction Multi-Tâches, où nous entraînons les experts à devenir un "expert" des ensembles de données de la parole au texte, du langage au texte et de la vision au texte en apprenant à acheminer les jetons de chaque ensemble de données vers son expert associé. Les expériences menées sur le tableau de classement Open ASR montrent que nous explorons un nouveau niveau de performance en atteignant une réduction moyenne relative de 5,0 % du WER et des améliorations substantielles des scores BLEU pour les tâches de parole et de traduction. Lors de l'évaluation sans données, NeKo surpasse GPT-3.5 et Claude-Opus avec une réduction relative du WER de 15,5 % à 27,6 % dans le banc d'essai Hyporadise. NeKo se comporte de manière compétitive en correction de grammaire et post-OCR en tant que modèle multi-tâches.
English
Construction of a general-purpose post-recognition error corrector poses a crucial question: how can we most effectively train a model on a large mixture of domain datasets? The answer would lie in learning dataset-specific features and digesting their knowledge in a single model. Previous methods achieve this by having separate correction language models, resulting in a significant increase in parameters. In this work, we present Mixture-of-Experts as a solution, highlighting that MoEs are much more than a scalability tool. We propose a Multi-Task Correction MoE, where we train the experts to become an ``expert'' of speech-to-text, language-to-text and vision-to-text datasets by learning to route each dataset's tokens to its mapped expert. Experiments on the Open ASR Leaderboard show that we explore a new state-of-the-art performance by achieving an average relative 5.0% WER reduction and substantial improvements in BLEU scores for speech and translation tasks. On zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to 27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs competitively on grammar and post-OCR correction as a multi-task model.

Summary

AI-Generated Summary

PDF42November 12, 2024