Symbolic Mixture-of-Experts: Adaptives, fähigkeitsbasiertes Routing für heterogenes Schließen
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning
March 7, 2025
Autoren: Justin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal
cs.AI
Zusammenfassung
Die Kombination bestehender vortrainierter Expert-LLMs ist ein vielversprechender Ansatz, um groß angelegte und vielfältige Aufgaben skalierbar zu bewältigen. Die Auswahl von Experten auf Aufgabenebene ist jedoch oft zu grob, da heterogene Aufgaben unterschiedliche Expertise für jede Instanz erfordern können. Um eine adaptive, instanzbasierte Mischung vortrainierter LLM-Experten zu ermöglichen, schlagen wir Symbolic-MoE vor, ein symbolisches, textbasiertes und gradientenfreies Mixture-of-Experts-Framework. Symbolic-MoE verfolgt einen feinkörnigen Ansatz bei der Auswahl, indem es Fähigkeiten betont, z. B. Algebra in der Mathematik oder Molekularbiologie im biomedizinischen Denken. Wir schlagen eine fähigkeitsbasierte Rekrutierungsstrategie vor, die dynamisch die relevanteste Gruppe von Expert-LLMs für verschiedene Denkaufgaben basierend auf ihren Stärken auswählt. Jeder ausgewählte Experte generiert dann seine eigene Argumentation, was zu k Ausgaben von k Experten führt, die anschließend durch einen Aggregator zu einer endgültigen hochwertigen Antwort synthetisiert werden. Der Aggregator wird basierend auf seiner Fähigkeit ausgewählt, diverse Argumentationsergebnisse zu integrieren. Wir zeigen, dass die instanzbasierte Expertenauswahl von Symbolic-MoE die Leistung erheblich verbessert, aber – wenn sie naiv implementiert wird – einen hohen Rechenaufwand aufgrund des ständigen Ladens und Entladens von Modellen verursachen kann. Um dies zu beheben, implementieren wir eine Batch-Inferenz-Strategie, die Instanzen basierend auf ihren zugewiesenen Experten gruppiert und jedes Modell nur einmal lädt. Dies ermöglicht es uns, 16 Expertenmodelle auf einer GPU zu integrieren, mit einem Zeitaufwand, der vergleichbar oder besser ist als bisherige Multi-Agent-Baselines, die 4 GPUs verwenden. Durch umfangreiche Evaluierungen auf diversen Benchmarks (MMLU-Pro, GPQA, AIME und MedMCQA) demonstrieren wir, dass Symbolic-MoE starke LLMs wie GPT4o-mini sowie Multi-Agent-Ansätze übertrifft, mit einer absoluten durchschnittlichen Verbesserung von 8,15 % gegenüber der besten Multi-Agent-Baseline. Darüber hinaus eliminiert Symbolic-MoE die Notwendigkeit teurer mehrstufiger Diskussionen und übertrifft Diskussionsbaselines mit weniger Rechenaufwand.
English
Combining existing pre-trained expert LLMs is a promising avenue for scalably
tackling large-scale and diverse tasks. However, selecting experts at the task
level is often too coarse-grained, as heterogeneous tasks may require different
expertise for each instance. To enable adaptive instance-level mixing of
pre-trained LLM experts, we propose Symbolic-MoE, a symbolic, text-based, and
gradient-free Mixture-of-Experts framework. Symbolic-MoE takes a fine-grained
approach to selection by emphasizing skills, e.g., algebra in math or molecular
biology in biomedical reasoning. We propose a skill-based recruiting strategy
that dynamically selects the most relevant set of expert LLMs for diverse
reasoning tasks based on their strengths. Each selected expert then generates
its own reasoning, resulting in k outputs from k experts, which are then
synthesized into a final high-quality response by an aggregator chosen based on
its ability to integrate diverse reasoning outputs. We show that Symbolic-MoE's
instance-level expert selection improves performance by a large margin but --
when implemented naively -- can introduce a high computational overhead due to
the need for constant model loading and offloading. To address this, we
implement a batch inference strategy that groups instances based on their
assigned experts, loading each model only once. This allows us to integrate 16
expert models on 1 GPU with a time cost comparable to or better than prior
multi-agent baselines using 4 GPUs. Through extensive evaluations on diverse
benchmarks (MMLU-Pro, GPQA, AIME, and MedMCQA), we demonstrate that
Symbolic-MoE outperforms strong LLMs like GPT4o-mini, as well as multi-agent
approaches, with an absolute average improvement of 8.15% over the best
multi-agent baseline. Moreover, Symbolic-MoE removes the need for expensive
multi-round discussions, outperforming discussion baselines with less
computation.Summary
AI-Generated Summary