Modellen van Autonomie van Experts

Autonomy-of-Experts Models

January 22, 2025
Auteurs: Ang Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan
cs.AI

Samenvatting

Mengmodellen van Experts (MoE) maken voornamelijk gebruik van een router om tokens toe te wijzen aan specifieke expertmodules, waarbij alleen gedeeltelijke parameters worden geactiveerd en ze vaak beter presteren dan dichte modellen. We betogen dat de scheiding tussen de besluitvorming van de router en de uitvoering van de experts een cruciale maar over het hoofd geziene kwestie is, wat leidt tot suboptimale expertselectie en ineffectief leren. Om dit aan te pakken, stellen we Autonomie-van-Experts (AoE) voor, een nieuw MoE-paradigma waarin experts zich autonoom selecteren om invoergegevens te verwerken. AoE is gebaseerd op het inzicht dat een expert zich bewust is van zijn eigen capaciteit om een token effectief te verwerken, een bewustzijn dat tot uiting komt in de schaal van zijn interne activaties. In AoE worden routers verwijderd; in plaats daarvan berekenen experts vooraf interne activaties voor invoergegevens en worden ze gerangschikt op basis van hun activatienormen. Alleen de best gerangschikte experts gaan verder met de voorwaartse doorvoer, terwijl de anderen worden afgebroken. De overhead van het vooraf berekenen van activaties wordt verminderd door een factorisatie van gewichten met lage rangorde. Deze aanpak van zelfevaluatie-gevolgd-door-partnervergelijking zorgt voor verbeterde expertselectie en effectief leren. We pre-trainen taalmodellen met 700M tot 4B parameters en tonen aan dat AoE traditionele MoE-modellen overtreft met vergelijkbare efficiëntie.
English
Mixture-of-Experts (MoE) models mostly use a router to assign tokens to specific expert modules, activating only partial parameters and often outperforming dense models. We argue that the separation between the router's decision-making and the experts' execution is a critical yet overlooked issue, leading to suboptimal expert selection and ineffective learning. To address this, we propose Autonomy-of-Experts (AoE), a novel MoE paradigm in which experts autonomously select themselves to process inputs. AoE is based on the insight that an expert is aware of its own capacity to effectively process a token, an awareness reflected in the scale of its internal activations. In AoE, routers are removed; instead, experts pre-compute internal activations for inputs and are ranked based on their activation norms. Only the top-ranking experts proceed with the forward pass, while the others abort. The overhead of pre-computing activations is reduced through a low-rank weight factorization. This self-evaluating-then-partner-comparing approach ensures improved expert selection and effective learning. We pre-train language models having 700M up to 4B parameters, demonstrating that AoE outperforms traditional MoE models with comparable efficiency.

Summary

AI-Generated Summary

PDF385January 23, 2025