EoRA: Training-vrije Compensatie voor Gecomprimeerde LLM met Eigenspace Lage-Rang Benadering
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation
October 28, 2024
Auteurs: Shih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen
cs.AI
Samenvatting
In dit werk hervormen we het modelcompressieprobleem tot het aangepaste compensatieprobleem: Gegeven een gecomprimeerd model streven we ernaar om residuale lage-rang paden te introduceren om compressiefouten te compenseren onder aangepaste eisen van gebruikers (bijv. taken, compressieverhoudingen), resulterend in grotere flexibiliteit bij het aanpassen van de algehele capaciteit zonder beperkt te worden door specifieke compressieformaten. Echter, het naïef toepassen van SVD om residuale paden af te leiden veroorzaakt suboptimale benutting van de capaciteit van de lage-rang representatie. In plaats daarvan stellen we Training-vrije Eigenspace Lage-Rang Benadering (EoRA) voor, een methode die compressie-geïnduceerde fouten direct minimaliseert zonder dat daarvoor op gradienten gebaseerde training nodig is, wat resulteert in snelle optimalisatie binnen enkele minuten met een kleine hoeveelheid kalibratiedata. EoRA projecteert compressiefouten in de eigenspace van inputactivaties, waarbij eigenwaarden worden benut om de reconstructie van foutcomponenten met hoge prioriteit effectief te maken. Bovendien kan EoRA naadloos geïntegreerd worden met fine-tuning en kwantisatie om effectiviteit en efficiëntie verder te verbeteren. EoRA presteert consequent beter dan eerdere methoden bij het compenseren van fouten voor gecomprimeerde LLaMA2/3-modellen op verschillende taken, zoals taalgeneratie, gezond verstand redeneren en wiskundige redeneertaken (bijv. 31,31%/12,88% en 9,69% verbeteringen op ARC-Easy/ARC-Challenge en MathQA bij het compenseren van LLaMA3-8B die gekwantiseerd is tot 4-bit en uitgedund tot 2:4 spaarzaamheid). EoRA biedt een schaalbare, training-vrije oplossing om compressiefouten te compenseren, waardoor het een krachtig instrument is om LLMs in verschillende capaciteits- en efficiëntie-eisen in te zetten.
English
In this work, we re-formulate the model compression problem into the
customized compensation problem: Given a compressed model, we aim to introduce
residual low-rank paths to compensate for compression errors under customized
requirements from users (e.g., tasks, compression ratios), resulting in greater
flexibility in adjusting overall capacity without being constrained by specific
compression formats. However, naively applying SVD to derive residual paths
causes suboptimal utilization of the low-rank representation capacity. Instead,
we propose Training-free Eigenspace Low-Rank Approximation (EoRA), a method
that directly minimizes compression-induced errors without requiring
gradient-based training, achieving fast optimization in minutes using a small
amount of calibration data. EoRA projects compression errors into the
eigenspace of input activations, leveraging eigenvalues to effectively
prioritize the reconstruction of high-importance error components. Moreover,
EoRA can be seamlessly integrated with fine-tuning and quantization to further
improve effectiveness and efficiency. EoRA consistently outperforms previous
methods in compensating errors for compressed LLaMA2/3 models on various tasks,
such as language generation, commonsense reasoning, and math reasoning tasks
(e.g., 31.31%/12.88% and 9.69% improvements on ARC-Easy/ARC-Challenge and
MathQA when compensating LLaMA3-8B that is quantized to 4-bit and pruned to 2:4
sparsity). EoRA offers a scalable, training-free solution to compensate for
compression errors, making it a powerful tool to deploy LLMs in various
capacity and efficiency requirements.Summary
AI-Generated Summary