MH-MoE: 다중 헤드 전문가 혼합
MH-MoE:Multi-Head Mixture-of-Experts
November 25, 2024
저자: Shaohan Huang, Xun Wu, Shuming Ma, Furu Wei
cs.AI
초록
다중 헤드 전문가 혼합 (MH-MoE)은 다양한 전문가들 사이에서 다양한 표현 공간에서 정보에 집중하기 위해 다중 헤드 메커니즘을 사용하여 우수한 성능을 나타냅니다. 본 논문에서는 FLOP 및 매개변수 동등성을 유지하는 새로운 MH-MoE 구현을 제시합니다. 언어 모델에 대한 실험 결과는 새로운 구현이 일반 MoE 및 세분화된 MoE 모델보다 품질 향상을 가져온다는 것을 보여줍니다. 게다가, 우리의 실험은 MH-MoE가 BitNet과 같은 1-비트 대규모 언어 모델 (LLM)과 호환되는 것을 보여줍니다.
English
Multi-Head Mixture-of-Experts (MH-MoE) demonstrates superior performance by
using the multi-head mechanism to collectively attend to information from
various representation spaces within different experts. In this paper, we
present a novel implementation of MH-MoE that maintains both FLOPs and
parameter parity with sparse Mixture of Experts models. Experimental results on
language models show that the new implementation yields quality improvements
over both vanilla MoE and fine-grained MoE models. Additionally, our
experiments demonstrate that MH-MoE is compatible with 1-bit Large Language
Models (LLMs) such as BitNet.Summary
AI-Generated Summary