EoRA: Compensazione senza addestramento per LLM compressi con spazio degli autovettori Approssimazione a basso rango.
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation
October 28, 2024
Autori: Shih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen
cs.AI
Abstract
In questo lavoro, riformuliamo il problema della compressione del modello nel problema della compensazione personalizzata: Dato un modello compresso, miriamo a introdurre percorsi residui a basso rango per compensare gli errori di compressione in base ai requisiti personalizzati degli utenti (ad esempio, compiti, rapporti di compressione), ottenendo una maggiore flessibilità nell'adattare la capacità complessiva senza essere vincolati da formati di compressione specifici. Tuttavia, l'applicazione ingenua della SVD per derivare percorsi residui causa un utilizzo non ottimale della capacità di rappresentazione a basso rango. Invece, proponiamo l'Approssimazione a Basso Rango dello Spazio degli Autovettori Senza Allenamento (EoRA), un metodo che minimizza direttamente gli errori indotti dalla compressione senza richiedere un allenamento basato su gradienti, raggiungendo un'ottimizzazione rapida in pochi minuti utilizzando una piccola quantità di dati di calibrazione. EoRA proietta gli errori di compressione nello spazio degli autovettori delle attivazioni in ingresso, sfruttando gli autovalori per dare priorità in modo efficace alla ricostruzione dei componenti di errore ad alta importanza. Inoltre, EoRA può essere integrato senza soluzione di continuità con il fine-tuning e la quantizzazione per migliorare ulteriormente l'efficacia e l'efficienza. EoRA supera costantemente i metodi precedenti nel compensare gli errori per i modelli LLaMA2/3 compressi su varie attività, come la generazione di linguaggio, il ragionamento di senso comune e le attività di ragionamento matematico (ad esempio, miglioramenti del 31,31%/12,88% e del 9,69% su ARC-Easy/ARC-Challenge e MathQA quando si compensa LLaMA3-8B quantizzato a 4 bit e potato a una sparsità di 2:4). EoRA offre una soluzione scalabile e senza allenamento per compensare gli errori di compressione, rendendolo uno strumento potente per implementare LLM in varie capacità ed esigenze di efficienza.
English
In this work, we re-formulate the model compression problem into the
customized compensation problem: Given a compressed model, we aim to introduce
residual low-rank paths to compensate for compression errors under customized
requirements from users (e.g., tasks, compression ratios), resulting in greater
flexibility in adjusting overall capacity without being constrained by specific
compression formats. However, naively applying SVD to derive residual paths
causes suboptimal utilization of the low-rank representation capacity. Instead,
we propose Training-free Eigenspace Low-Rank Approximation (EoRA), a method
that directly minimizes compression-induced errors without requiring
gradient-based training, achieving fast optimization in minutes using a small
amount of calibration data. EoRA projects compression errors into the
eigenspace of input activations, leveraging eigenvalues to effectively
prioritize the reconstruction of high-importance error components. Moreover,
EoRA can be seamlessly integrated with fine-tuning and quantization to further
improve effectiveness and efficiency. EoRA consistently outperforms previous
methods in compensating errors for compressed LLaMA2/3 models on various tasks,
such as language generation, commonsense reasoning, and math reasoning tasks
(e.g., 31.31%/12.88% and 9.69% improvements on ARC-Easy/ARC-Challenge and
MathQA when compensating LLaMA3-8B that is quantized to 4-bit and pruned to 2:4
sparsity). EoRA offers a scalable, training-free solution to compensate for
compression errors, making it a powerful tool to deploy LLMs in various
capacity and efficiency requirements.Summary
AI-Generated Summary