BitStack: Fijnmazige Groottecontrole voor Gecomprimeerde Grote Taalmodellen in Variabele Geheugenomgevingen

BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments

October 31, 2024
Auteurs: Xinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu
cs.AI

Samenvatting

Grote taalmodellen (LLM's) hebben tal van toepassingen gerevolutioneerd, maar de implementatie ervan blijft uitgedaagd door geheugenbeperkingen op lokale apparaten. Hoewel schaalwetten de mogelijkheden van LLM's hebben verbeterd, is de voornaamste bottleneck verschoven van capaciteit naar beschikbaarheid, waarbij de noodzaak van efficiënt geheugenbeheer wordt benadrukt. Traditionele compressiemethoden, zoals kwantisatie, vereisen vaak vooraf gedefinieerde compressieverhoudingen en afzonderlijke compressieprocessen voor elke instelling, wat de implementatie in variabele geheugensituaties bemoeilijkt. In dit artikel introduceren we BitStack, een nieuw, op training-vrije gewichtscompressiebenadering die megabyte-niveau uitwisselingen mogelijk maakt tussen geheugengebruik en modelprestaties. Door gebruik te maken van gewichtsdecompositie kan BitStack dynamisch de modelgrootte aanpassen met minimaal transport tussen actief geheugen en opslagapparaten. Onze benadering decomposeert gewichtsmatrices iteratief met inachtneming van de significantie van elk parameter, resulterend in een residu blok van ongeveer 1 bit per parameter in elke decompositie iteratie. Deze blokken worden gesorteerd en gestapeld in opslag als basis transmissie-eenheden, waarbij verschillende hoeveelheden worden geladen op basis van de huidige geheugenbeschikbaarheid. Uitgebreide experimenten over een breed scala aan taken tonen aan dat, ondanks het bieden van fijnmazige groottecontrole, BitStack consequent overeenkomt met of beter presteert dan sterke kwantisatie baselines, met name bij extreme compressieverhoudingen. Voor zover wij weten, is dit de eerste decompositie-gebaseerde methode die effectief de kloof overbrugt naar praktische compressietechnieken zoals kwantisatie. De code is beschikbaar op https://github.com/xinghaow99/BitStack.
English
Large language models (LLMs) have revolutionized numerous applications, yet their deployment remains challenged by memory constraints on local devices. While scaling laws have enhanced LLM capabilities, the primary bottleneck has shifted from capability to availability, emphasizing the need for efficient memory management. Traditional compression methods, such as quantization, often require predefined compression ratios and separate compression processes for each setting, complicating deployment in variable memory environments. In this paper, we introduce BitStack, a novel, training-free weight compression approach that enables megabyte-level trade-offs between memory usage and model performance. By leveraging weight decomposition, BitStack can dynamically adjust the model size with minimal transmission between running memory and storage devices. Our approach iteratively decomposes weight matrices while considering the significance of each parameter, resulting in an approximately 1-bit per parameter residual block in each decomposition iteration. These blocks are sorted and stacked in storage as basic transmission units, with different quantities loaded based on current memory availability. Extensive experiments across a wide range of tasks demonstrate that, despite offering fine-grained size control, BitStack consistently matches or surpasses strong quantization baselines, particularly at extreme compression ratios. To the best of our knowledge, this is the first decomposition-based method that effectively bridges the gap to practical compression techniques like quantization. Code is available at https://github.com/xinghaow99/BitStack.

Summary

AI-Generated Summary

PDF186November 13, 2024