BitStack: Fijnmazige Groottecontrole voor Gecomprimeerde Grote Taalmodellen in Variabele Geheugenomgevingen
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments
October 31, 2024
Auteurs: Xinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben tal van toepassingen gerevolutioneerd, maar de implementatie ervan blijft uitgedaagd door geheugenbeperkingen op lokale apparaten. Hoewel schaalwetten de mogelijkheden van LLM's hebben verbeterd, is de voornaamste bottleneck verschoven van capaciteit naar beschikbaarheid, waarbij de noodzaak van efficiënt geheugenbeheer wordt benadrukt. Traditionele compressiemethoden, zoals kwantisatie, vereisen vaak vooraf gedefinieerde compressieverhoudingen en afzonderlijke compressieprocessen voor elke instelling, wat de implementatie in variabele geheugensituaties bemoeilijkt. In dit artikel introduceren we BitStack, een nieuw, op training-vrije gewichtscompressiebenadering die megabyte-niveau uitwisselingen mogelijk maakt tussen geheugengebruik en modelprestaties. Door gebruik te maken van gewichtsdecompositie kan BitStack dynamisch de modelgrootte aanpassen met minimaal transport tussen actief geheugen en opslagapparaten. Onze benadering decomposeert gewichtsmatrices iteratief met inachtneming van de significantie van elk parameter, resulterend in een residu blok van ongeveer 1 bit per parameter in elke decompositie iteratie. Deze blokken worden gesorteerd en gestapeld in opslag als basis transmissie-eenheden, waarbij verschillende hoeveelheden worden geladen op basis van de huidige geheugenbeschikbaarheid. Uitgebreide experimenten over een breed scala aan taken tonen aan dat, ondanks het bieden van fijnmazige groottecontrole, BitStack consequent overeenkomt met of beter presteert dan sterke kwantisatie baselines, met name bij extreme compressieverhoudingen. Voor zover wij weten, is dit de eerste decompositie-gebaseerde methode die effectief de kloof overbrugt naar praktische compressietechnieken zoals kwantisatie. De code is beschikbaar op https://github.com/xinghaow99/BitStack.
English
Large language models (LLMs) have revolutionized numerous applications, yet
their deployment remains challenged by memory constraints on local devices.
While scaling laws have enhanced LLM capabilities, the primary bottleneck has
shifted from capability to availability, emphasizing the need
for efficient memory management. Traditional compression methods, such as
quantization, often require predefined compression ratios and separate
compression processes for each setting, complicating deployment in variable
memory environments. In this paper, we introduce BitStack, a novel,
training-free weight compression approach that enables megabyte-level
trade-offs between memory usage and model performance. By leveraging weight
decomposition, BitStack can dynamically adjust the model size with minimal
transmission between running memory and storage devices. Our approach
iteratively decomposes weight matrices while considering the significance of
each parameter, resulting in an approximately 1-bit per parameter residual
block in each decomposition iteration. These blocks are sorted and stacked in
storage as basic transmission units, with different quantities loaded based on
current memory availability. Extensive experiments across a wide range of tasks
demonstrate that, despite offering fine-grained size control, BitStack
consistently matches or surpasses strong quantization baselines, particularly
at extreme compression ratios. To the best of our knowledge, this is the first
decomposition-based method that effectively bridges the gap to practical
compression techniques like quantization. Code is available at
https://github.com/xinghaow99/BitStack.Summary
AI-Generated Summary