Leggimi: Refattorizzazione di LLM come Misto di Esperti Decoupled con Router e Co-Design di Sistema
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design
October 24, 2024
Autori: Ruisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang
cs.AI
Abstract
La proliferazione dei grandi modelli linguistici (LLM) ha portato all'adozione di architetture Mixture-of-Experts (MoE) che sfruttano dinamicamente sotto-reti specializzate per migliorare l'efficienza e le prestazioni. Nonostante i loro vantaggi, i modelli MoE affrontano significativi problemi durante l'inferenza, inclusa una gestione inefficiente della memoria e un batching non ottimale, a causa di scelte progettuali non allineate tra l'architettura del modello e le politiche di sistema. Inoltre, l'approccio convenzionale di addestrare i MoE da zero è sempre più proibitivo in termini di costi. In questo articolo, proponiamo un nuovo framework denominato Read-ME che trasforma i densi LLM pre-addestrati in modelli MoE più piccoli (in contrasto con l'"upcycling" dei MoE generalisti), evitando i costi elevati dell'addestramento da zero. Il nostro approccio utilizza la sparsetà di attivazione per estrarre gli esperti. Per comporre gli esperti, esaminiamo il design del router a livello di layer ampiamente adottato e ne mostriamo la ridondanza, introducendo quindi il router di pre-gating scollegato dalla struttura di base del MoE che facilita il pre-calcolo e la pianificazione anticipata amichevoli per il sistema, migliorando il batching e la memorizzazione nella cache consapevoli degli esperti. La nostra progettazione congiunta affronta quindi lacune critiche sia sul fronte algoritmico che su quello sistemico, stabilendo un'alternativa scalabile ed efficiente per l'inferenza LLM in contesti con risorse limitate. Read-ME supera altri modelli densi open-source popolari delle stesse dimensioni, ottenendo miglioramenti fino al 10,1% su MMLU e riducendo la latenza media end-to-end fino al 6,1%. I codici sono disponibili su: https://github.com/VITA-Group/READ-ME.
English
The proliferation of large language models (LLMs) has led to the adoption of
Mixture-of-Experts (MoE) architectures that dynamically leverage specialized
subnetworks for improved efficiency and performance. Despite their benefits,
MoE models face significant challenges during inference, including inefficient
memory management and suboptimal batching, due to misaligned design choices
between the model architecture and the system policies. Furthermore, the
conventional approach of training MoEs from scratch is increasingly prohibitive
in terms of cost. In this paper, we propose a novel framework Read-ME that
transforms pre-trained dense LLMs into smaller MoE models (in contrast to
"upcycling" generalist MoEs), avoiding the high costs of ground-up training.
Our approach employs activation sparsity to extract experts. To compose
experts, we examine the widely-adopted layer-wise router design and show its
redundancy, and thus we introduce the pre-gating router decoupled from the MoE
backbone that facilitates system-friendly pre-computing and lookahead
scheduling, enhancing expert-aware batching and caching. Our codesign therefore
addresses critical gaps on both the algorithmic and system fronts, establishing
a scalable and efficient alternative for LLM inference in resource-constrained
settings. Read-ME outperforms other popular open-source dense models of similar
scales, achieving improvements of up to 10.1% on MMLU, and improving mean
end-to-end latency up to 6.1%. Codes are available at:
https://github.com/VITA-Group/READ-ME.Summary
AI-Generated Summary