ReMoE: Misto de Especialistas Totalmente Diferenciável com Roteamento ReLU

ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

December 19, 2024
Autores: Ziteng Wang, Jianfei Chen, Jun Zhu
cs.AI

Resumo

Os modelos Mixture-of-Experts (MoE) ativados de forma esparsa são amplamente adotados para aumentar a capacidade do modelo sem aumentar o orçamento computacional. No entanto, os roteadores TopK convencionais são treinados de forma descontínua e não diferenciável, limitando seu desempenho e escalabilidade. Para lidar com esse problema, propomos o ReMoE, uma arquitetura MoE totalmente diferenciável que oferece uma substituição simples e eficaz para o roteamento convencional TopK+Softmax, utilizando ReLU como roteador. Propomos ainda métodos para regular a dispersão do roteador enquanto equilibramos a carga entre os especialistas. A natureza contínua do ReMoE permite uma alocação dinâmica eficiente de computação entre tokens e camadas, além de exibir especialização de domínio. Nossos experimentos demonstram que o ReMoE supera consistentemente o MoE roteado por TopK convencional em vários tamanhos de modelo, contagens de especialistas e níveis de granularidade. Além disso, o ReMoE apresenta escalabilidade superior em relação ao número de especialistas, superando arquiteturas MoE tradicionais. A implementação baseada no Megatron-LM está disponível em https://github.com/thu-ml/ReMoE.
English
Sparsely activated Mixture-of-Experts (MoE) models are widely adopted to scale up model capacity without increasing the computation budget. However, vanilla TopK routers are trained in a discontinuous, non-differentiable way, limiting their performance and scalability. To address this issue, we propose ReMoE, a fully differentiable MoE architecture that offers a simple yet effective drop-in replacement for the conventional TopK+Softmax routing, utilizing ReLU as the router instead. We further propose methods to regulate the router's sparsity while balancing the load among experts. ReMoE's continuous nature enables efficient dynamic allocation of computation across tokens and layers, while also exhibiting domain specialization. Our experiments demonstrate that ReMoE consistently outperforms vanilla TopK-routed MoE across various model sizes, expert counts, and levels of granularity. Furthermore, ReMoE exhibits superior scalability with respect to the number of experts, surpassing traditional MoE architectures. The implementation based on Megatron-LM is available at https://github.com/thu-ml/ReMoE.

Summary

AI-Generated Summary

PDF152December 25, 2024