Mischung von Experten auf intrinsisch interpretierbare Weise
Mixture of Experts Made Intrinsically Interpretable
March 5, 2025
Autoren: Xingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr
cs.AI
Zusammenfassung
Neuronen in großen Sprachmodellen zeigen oft Polysemantizität, indem sie gleichzeitig mehrere unabhängige Konzepte kodieren und dadurch die Interpretierbarkeit verschleiern. Anstatt auf nachträgliche Methoden zurückzugreifen, stellen wir MoE-X vor, ein Mixture-of-Experts (MoE)-Sprachmodell, das von Grund auf interpretierbar gestaltet ist. Unser Ansatz wird durch die Beobachtung motiviert, dass in Sprachmodellen breitere Netzwerke mit spärlichen Aktivierungen eher interpretierbare Faktoren erfassen. Die direkte Ausbildung solcher großen, spärlichen Netzwerke ist jedoch rechenintensiv und unpraktikabel. MoE-Architekturen bieten eine skalierbare Alternative, indem sie für jede Eingabe nur eine Teilmenge von Experten aktivieren, was sich von Natur aus mit den Zielen der Interpretierbarkeit deckt. In MoE-X stellen wir diese Verbindung her, indem wir die MoE-Schicht als ein äquivalentes, spärliches großes MLP umschreiben. Dieser Ansatz ermöglicht eine effiziente Skalierung der verborgenen Größe bei gleichzeitiger Beibehaltung der Sparsamkeit. Um die Interpretierbarkeit weiter zu verbessern, erzwingen wir eine spärliche Aktivierung innerhalb jedes Experten und gestalten den Routing-Mechanismus neu, um Experten mit der höchsten Aktivierungssparsamkeit zu priorisieren. Diese Designs stellen sicher, dass nur die wichtigsten Merkmale geroutet und von den Experten verarbeitet werden. Wir evaluieren MoE-X anhand von Schach- und natürlichen Sprachaufgaben und zeigen, dass es eine Leistung erzielt, die mit dichten Modellen vergleichbar ist, während die Interpretierbarkeit deutlich verbessert wird. MoE-X erreicht eine bessere Perplexität als GPT-2, wobei die Interpretierbarkeit sogar Ansätze auf Basis spärlicher Autoencoder (SAE) übertrifft.
English
Neurons in large language models often exhibit polysemanticity,
simultaneously encoding multiple unrelated concepts and obscuring
interpretability. Instead of relying on post-hoc methods, we present
MoE-X, a Mixture-of-Experts (MoE) language model designed to be
intrinsically interpretable. Our approach is motivated by the
observation that, in language models, wider networks with sparse activations
are more likely to capture interpretable factors. However, directly training
such large sparse networks is computationally prohibitive. MoE architectures
offer a scalable alternative by activating only a subset of experts for any
given input, inherently aligning with interpretability objectives. In MoE-X, we
establish this connection by rewriting the MoE layer as an equivalent sparse,
large MLP. This approach enables efficient scaling of the hidden size while
maintaining sparsity. To further enhance interpretability, we enforce sparse
activation within each expert and redesign the routing mechanism to prioritize
experts with the highest activation sparsity. These designs ensure that only
the most salient features are routed and processed by the experts. We evaluate
MoE-X on chess and natural language tasks, showing that it achieves performance
comparable to dense models while significantly improving interpretability.
MoE-X achieves a perplexity better than GPT-2, with interpretability surpassing
even sparse autoencoder (SAE)-based approaches.Summary
AI-Generated Summary