NeKo: 과제 지향 전문가를 활용한 후처리 생성 보정 대규모 언어 모델에 대한 연구

NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts

November 8, 2024
저자: Yen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang
cs.AI

초록

일반적인 후처리 오류 교정기의 구축은 중요한 질문을 제기합니다: 어떻게 대규모 도메인 데이터셋 혼합물에 가장 효과적으로 모델을 훈련시킬 수 있을까? 답은 데이터셋별 특징을 학습하고 그 지식을 단일 모델에 소화하는 데에 있을 것입니다. 이전 방법은 별도의 교정 언어 모델을 가지고 이를 달성했으며, 이는 매개변수의 상당한 증가를 초래했습니다. 본 연구에서는 MoEs(Mixture-of-Experts)를 해결책으로 제시하며, MoEs가 확장성 도구 이상의 역할을 한다는 점을 강조합니다. 우리는 Multi-Task Correction MoE를 제안하여, 전문가들을 음성-텍스트, 언어-텍스트 및 시각-텍스트 데이터셋의 "전문가"로 훈련시켜 각 데이터셋의 토큰을 해당 매핑된 전문가로 라우팅하는 방식으로 학습합니다. Open ASR Leaderboard에서의 실험 결과는, 평균 상대적 5.0% WER 감소 및 음성 및 번역 작업의 BLEU 점수에 상당한 향상을 달성함으로써 새로운 최고 성능을 탐구했음을 보여줍니다. 제로샷 평가에서, NeKo는 Hyporadise 벤치마크에서 GPT-3.5 및 Claude-Opus를 상회하여 상대적으로 15.5%에서 27.6%의 WER 감소를 달성했습니다. NeKo는 다중 작업 모델로서 문법 및 후-OCR 교정에서 경쟁력 있는 성과를 보여줍니다.
English
Construction of a general-purpose post-recognition error corrector poses a crucial question: how can we most effectively train a model on a large mixture of domain datasets? The answer would lie in learning dataset-specific features and digesting their knowledge in a single model. Previous methods achieve this by having separate correction language models, resulting in a significant increase in parameters. In this work, we present Mixture-of-Experts as a solution, highlighting that MoEs are much more than a scalability tool. We propose a Multi-Task Correction MoE, where we train the experts to become an ``expert'' of speech-to-text, language-to-text and vision-to-text datasets by learning to route each dataset's tokens to its mapped expert. Experiments on the Open ASR Leaderboard show that we explore a new state-of-the-art performance by achieving an average relative 5.0% WER reduction and substantial improvements in BLEU scores for speech and translation tasks. On zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to 27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs competitively on grammar and post-OCR correction as a multi-task model.

Summary

AI-Generated Summary

PDF42November 12, 2024