NeKo: Verso Modelli Linguistici Generativi di Correzione Post-Riconoscimento con Esperti Orientati al Compito

Abstract

La costruzione di un correttore di errori post-riconoscimento generale pone una domanda cruciale: come possiamo addestrare in modo più efficace un modello su una vasta miscela di dataset di dominio? La risposta risiederebbe nel comprendere le caratteristiche specifiche del dataset e assimilare le loro conoscenze in un unico modello. Metodi precedenti raggiungono questo obiettivo attraverso l'utilizzo di modelli di linguaggio di correzione separati, con un significativo aumento dei parametri. In questo lavoro, presentiamo il Mixture-of-Experts come soluzione, sottolineando che i MoE sono molto più di uno strumento di scalabilità. Proponiamo un MoE di correzione multi-task, dove addestriamo gli esperti a diventare un "esperto" di dataset da speech-to-text, language-to-text e vision-to-text apprendendo a instradare i token di ciascun dataset al relativo esperto mappato. Gli esperimenti sulla classifica Open ASR mostrano che esploriamo un nuovo stato dell'arte ottenendo una riduzione media relativa del 5,0% del tasso di errore di parola (WER) e miglioramenti sostanziali nei punteggi BLEU per compiti di speech e traduzione. Nell'valutazione zero-shot, NeKo supera GPT-3.5 e Claude-Opus con una riduzione relativa del WER del 15,5% al 27,6% nel benchmark Hyporadise. NeKo si comporta in modo competitivo nella correzione grammaticale e post-OCR come modello multi-task.

English

Construction of a general-purpose post-recognition error corrector poses a crucial question: how can we most effectively train a model on a large mixture of domain datasets? The answer would lie in learning dataset-specific features and digesting their knowledge in a single model. Previous methods achieve this by having separate correction language models, resulting in a significant increase in parameters. In this work, we present Mixture-of-Experts as a solution, highlighting that MoEs are much more than a scalability tool. We propose a Multi-Task Correction MoE, where we train the experts to become an ``expert'' of speech-to-text, language-to-text and vision-to-text datasets by learning to route each dataset's tokens to its mapped expert. Experiments on the Open ASR Leaderboard show that we explore a new state-of-the-art performance by achieving an average relative 5.0% WER reduction and substantial improvements in BLEU scores for speech and translation tasks. On zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to 27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs competitively on grammar and post-OCR correction as a multi-task model.

NeKo: Verso Modelli Linguistici Generativi di Correzione Post-Riconoscimento con Esperti Orientati al Compito

NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts

Abstract

Support