NeKo: 과제 지향 전문가를 활용한 후처리 생성 보정 대규모 언어 모델에 대한 연구
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts
November 8, 2024
저자: Yen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang
cs.AI
초록
일반적인 후처리 오류 교정기의 구축은 중요한 질문을 제기합니다: 어떻게 대규모 도메인 데이터셋 혼합물에 가장 효과적으로 모델을 훈련시킬 수 있을까? 답은 데이터셋별 특징을 학습하고 그 지식을 단일 모델에 소화하는 데에 있을 것입니다. 이전 방법은 별도의 교정 언어 모델을 가지고 이를 달성했으며, 이는 매개변수의 상당한 증가를 초래했습니다. 본 연구에서는 MoEs(Mixture-of-Experts)를 해결책으로 제시하며, MoEs가 확장성 도구 이상의 역할을 한다는 점을 강조합니다. 우리는 Multi-Task Correction MoE를 제안하여, 전문가들을 음성-텍스트, 언어-텍스트 및 시각-텍스트 데이터셋의 "전문가"로 훈련시켜 각 데이터셋의 토큰을 해당 매핑된 전문가로 라우팅하는 방식으로 학습합니다. Open ASR Leaderboard에서의 실험 결과는, 평균 상대적 5.0% WER 감소 및 음성 및 번역 작업의 BLEU 점수에 상당한 향상을 달성함으로써 새로운 최고 성능을 탐구했음을 보여줍니다. 제로샷 평가에서, NeKo는 Hyporadise 벤치마크에서 GPT-3.5 및 Claude-Opus를 상회하여 상대적으로 15.5%에서 27.6%의 WER 감소를 달성했습니다. NeKo는 다중 작업 모델로서 문법 및 후-OCR 교정에서 경쟁력 있는 성과를 보여줍니다.
English
Construction of a general-purpose post-recognition error corrector poses a
crucial question: how can we most effectively train a model on a large mixture
of domain datasets? The answer would lie in learning dataset-specific features
and digesting their knowledge in a single model. Previous methods achieve this
by having separate correction language models, resulting in a significant
increase in parameters. In this work, we present Mixture-of-Experts as a
solution, highlighting that MoEs are much more than a scalability tool. We
propose a Multi-Task Correction MoE, where we train the experts to become an
``expert'' of speech-to-text, language-to-text and vision-to-text datasets by
learning to route each dataset's tokens to its mapped expert. Experiments on
the Open ASR Leaderboard show that we explore a new state-of-the-art
performance by achieving an average relative 5.0% WER reduction and
substantial improvements in BLEU scores for speech and translation tasks. On
zero-shot evaluation, NeKo outperforms GPT-3.5 and Claude-Opus with 15.5% to
27.6% relative WER reduction in the Hyporadise benchmark. NeKo performs
competitively on grammar and post-OCR correction as a multi-task model.Summary
AI-Generated Summary