Anleitung: Refaktorisierung von LLMs als Router-entkoppelte Mischung von Experten mit System-Co-Design

Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

October 24, 2024
Autoren: Ruisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang
cs.AI

Zusammenfassung

Die Verbreitung großer Sprachmodelle (LLMs) hat zur Übernahme von Mixture-of-Experts (MoE)-Architekturen geführt, die spezialisierte Teilnetzwerke dynamisch nutzen, um Effizienz und Leistung zu verbessern. Trotz ihrer Vorteile stehen MoE-Modelle vor erheblichen Herausforderungen während der Inferenz, darunter ineffizientes Speichermanagement und suboptimales Batching aufgrund von nicht übereinstimmenden Designentscheidungen zwischen der Modellarchitektur und den Systemrichtlinien. Darüber hinaus wird der konventionelle Ansatz, MoEs von Grund auf zu trainieren, zunehmend kostspielig. In diesem Papier schlagen wir ein neuartiges Framework namens Read-ME vor, das vortrainierte dichte LLMs in kleinere MoE-Modelle umwandelt (im Gegensatz zur "Aufwertung" von Generalist-MoEs), um die hohen Kosten des Neutraining zu vermeiden. Unser Ansatz nutzt Aktivitätssparsamkeit zur Extraktion von Experten. Um Experten zu komponieren, untersuchen wir das weit verbreitete schichtweise Router-Design und zeigen dessen Redundanz auf. Daher führen wir den vorgeschalteten Router ein, der vom MoE-Grundgerüst entkoppelt ist und die systemfreundliche Vorberechnung und Vorausschauzeitplanung ermöglicht, um Expertenbewusstes Batching und Caching zu verbessern. Unsere Codesign-Strategie adressiert somit kritische Lücken sowohl auf algorithmischer als auch auf systemischer Ebene und etabliert eine skalierbare und effiziente Alternative für die Inferenz von LLMs in ressourcenbeschränkten Umgebungen. Read-ME übertrifft andere beliebte Open-Source-dichte Modelle ähnlicher Größenordnung und erzielt Verbesserungen von bis zu 10,1% bei MMLU und verbessert die mittlere End-to-End-Latenz um bis zu 6,1%. Die Codes sind verfügbar unter: https://github.com/VITA-Group/READ-ME.
English
The proliferation of large language models (LLMs) has led to the adoption of Mixture-of-Experts (MoE) architectures that dynamically leverage specialized subnetworks for improved efficiency and performance. Despite their benefits, MoE models face significant challenges during inference, including inefficient memory management and suboptimal batching, due to misaligned design choices between the model architecture and the system policies. Furthermore, the conventional approach of training MoEs from scratch is increasingly prohibitive in terms of cost. In this paper, we propose a novel framework Read-ME that transforms pre-trained dense LLMs into smaller MoE models (in contrast to "upcycling" generalist MoEs), avoiding the high costs of ground-up training. Our approach employs activation sparsity to extract experts. To compose experts, we examine the widely-adopted layer-wise router design and show its redundancy, and thus we introduce the pre-gating router decoupled from the MoE backbone that facilitates system-friendly pre-computing and lookahead scheduling, enhancing expert-aware batching and caching. Our codesign therefore addresses critical gaps on both the algorithmic and system fronts, establishing a scalable and efficient alternative for LLM inference in resource-constrained settings. Read-ME outperforms other popular open-source dense models of similar scales, achieving improvements of up to 10.1% on MMLU, and improving mean end-to-end latency up to 6.1%. Codes are available at: https://github.com/VITA-Group/READ-ME.

Summary

AI-Generated Summary

PDF152November 16, 2024