Modelle zur Autonomie von Experten
Autonomy-of-Experts Models
January 22, 2025
Autoren: Ang Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan
cs.AI
Zusammenfassung
Mixture-of-Experts (MoE) Modelle verwenden hauptsächlich einen Router, um Tokens spezifischen Expertenmodulen zuzuweisen, wodurch nur teilweise Parameter aktiviert werden und sie oft dicht besetzte Modelle übertreffen. Wir argumentieren, dass die Trennung zwischen der Entscheidungsfindung des Routers und der Ausführung der Experten ein kritisches, aber übersehenes Problem darstellt, das zu einer suboptimalen Expertenauswahl und ineffektivem Lernen führt. Um dies zu lösen, schlagen wir Autonomy-of-Experts (AoE) vor, ein neuartiges MoE-Paradigma, bei dem Experten sich autonom auswählen, um Eingaben zu verarbeiten. AoE basiert auf der Erkenntnis, dass ein Experte sich seiner eigenen Fähigkeit bewusst ist, ein Token effektiv zu verarbeiten, ein Bewusstsein, das sich im Ausmaß seiner internen Aktivierungen widerspiegelt. In AoE werden Router entfernt; stattdessen berechnen Experten interne Aktivierungen für Eingaben im Voraus und werden basierend auf ihren Aktivierungsnormen eingestuft. Nur die am besten eingestuften Experten setzen den Vorwärtspass fort, während die anderen abbrechen. Der Overhead der Vorab-Berechnung von Aktivierungen wird durch eine Faktorisierung von Gewichtsfaktoren mit niedrigem Rang reduziert. Dieser Ansatz des Selbstbewertens-und-Partner-Vergleichens gewährleistet eine verbesserte Expertenauswahl und effektives Lernen. Wir trainieren Sprachmodelle mit 700M bis zu 4B Parametern vor und zeigen, dass AoE traditionelle MoE-Modelle mit vergleichbarer Effizienz übertrifft.
English
Mixture-of-Experts (MoE) models mostly use a router to assign tokens to
specific expert modules, activating only partial parameters and often
outperforming dense models. We argue that the separation between the router's
decision-making and the experts' execution is a critical yet overlooked issue,
leading to suboptimal expert selection and ineffective learning. To address
this, we propose Autonomy-of-Experts (AoE), a novel MoE paradigm in which
experts autonomously select themselves to process inputs. AoE is based on the
insight that an expert is aware of its own capacity to effectively process a
token, an awareness reflected in the scale of its internal activations. In AoE,
routers are removed; instead, experts pre-compute internal activations for
inputs and are ranked based on their activation norms. Only the top-ranking
experts proceed with the forward pass, while the others abort. The overhead of
pre-computing activations is reduced through a low-rank weight factorization.
This self-evaluating-then-partner-comparing approach ensures improved expert
selection and effective learning. We pre-train language models having 700M up
to 4B parameters, demonstrating that AoE outperforms traditional MoE models
with comparable efficiency.Summary
AI-Generated Summary