Leggimi: Refattorizzazione di LLM come Misto di Esperti Decoupled con Router e Co-Design di Sistema

Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

October 24, 2024
Autori: Ruisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang
cs.AI

Abstract

La proliferazione dei grandi modelli linguistici (LLM) ha portato all'adozione di architetture Mixture-of-Experts (MoE) che sfruttano dinamicamente sotto-reti specializzate per migliorare l'efficienza e le prestazioni. Nonostante i loro vantaggi, i modelli MoE affrontano significativi problemi durante l'inferenza, inclusa una gestione inefficiente della memoria e un batching non ottimale, a causa di scelte progettuali non allineate tra l'architettura del modello e le politiche di sistema. Inoltre, l'approccio convenzionale di addestrare i MoE da zero è sempre più proibitivo in termini di costi. In questo articolo, proponiamo un nuovo framework denominato Read-ME che trasforma i densi LLM pre-addestrati in modelli MoE più piccoli (in contrasto con l'"upcycling" dei MoE generalisti), evitando i costi elevati dell'addestramento da zero. Il nostro approccio utilizza la sparsetà di attivazione per estrarre gli esperti. Per comporre gli esperti, esaminiamo il design del router a livello di layer ampiamente adottato e ne mostriamo la ridondanza, introducendo quindi il router di pre-gating scollegato dalla struttura di base del MoE che facilita il pre-calcolo e la pianificazione anticipata amichevoli per il sistema, migliorando il batching e la memorizzazione nella cache consapevoli degli esperti. La nostra progettazione congiunta affronta quindi lacune critiche sia sul fronte algoritmico che su quello sistemico, stabilendo un'alternativa scalabile ed efficiente per l'inferenza LLM in contesti con risorse limitate. Read-ME supera altri modelli densi open-source popolari delle stesse dimensioni, ottenendo miglioramenti fino al 10,1% su MMLU e riducendo la latenza media end-to-end fino al 6,1%. I codici sono disponibili su: https://github.com/VITA-Group/READ-ME.
English
The proliferation of large language models (LLMs) has led to the adoption of Mixture-of-Experts (MoE) architectures that dynamically leverage specialized subnetworks for improved efficiency and performance. Despite their benefits, MoE models face significant challenges during inference, including inefficient memory management and suboptimal batching, due to misaligned design choices between the model architecture and the system policies. Furthermore, the conventional approach of training MoEs from scratch is increasingly prohibitive in terms of cost. In this paper, we propose a novel framework Read-ME that transforms pre-trained dense LLMs into smaller MoE models (in contrast to "upcycling" generalist MoEs), avoiding the high costs of ground-up training. Our approach employs activation sparsity to extract experts. To compose experts, we examine the widely-adopted layer-wise router design and show its redundancy, and thus we introduce the pre-gating router decoupled from the MoE backbone that facilitates system-friendly pre-computing and lookahead scheduling, enhancing expert-aware batching and caching. Our codesign therefore addresses critical gaps on both the algorithmic and system fronts, establishing a scalable and efficient alternative for LLM inference in resource-constrained settings. Read-ME outperforms other popular open-source dense models of similar scales, achieving improvements of up to 10.1% on MMLU, and improving mean end-to-end latency up to 6.1%. Codes are available at: https://github.com/VITA-Group/READ-ME.

Summary

AI-Generated Summary

PDF152November 16, 2024