EoRA : Compensation sans entraînement pour LLM compressé avec approximation de rang faible de l'espace propre
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation
October 28, 2024
Auteurs: Shih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen
cs.AI
Résumé
Dans ce travail, nous reformulons le problème de compression de modèle en un problème de compensation personnalisée : Étant donné un modèle compressé, notre objectif est d'introduire des chemins résiduels de bas rang pour compenser les erreurs de compression selon les exigences personnalisées des utilisateurs (par exemple, tâches, taux de compression), ce qui permet une plus grande flexibilité dans l'ajustement de la capacité globale sans être contraint par des formats de compression spécifiques. Cependant, l'application naïve de la SVD pour dériver des chemins résiduels entraîne une utilisation sous-optimale de la capacité de représentation de bas rang. À la place, nous proposons l'Approximation de Bas Rang d'Espace Propre sans Entraînement (EoRA), une méthode qui minimise directement les erreurs induites par la compression sans nécessiter d'entraînement basé sur le gradient, réalisant une optimisation rapide en quelques minutes en utilisant une petite quantité de données de calibration. EoRA projette les erreurs de compression dans l'espace propre des activations d'entrée, exploitant les valeurs propres pour prioriser efficacement la reconstruction des composantes d'erreur de haute importance. De plus, EoRA peut être intégré de manière transparente avec le fine-tuning et la quantification pour améliorer davantage l'efficacité et l'efficience. EoRA surpasse de manière constante les méthodes précédentes en compensant les erreurs pour les modèles LLaMA2/3 compressés sur diverses tâches, telles que la génération de langage, le raisonnement de bon sens et les tâches de raisonnement mathématique (par exemple, des améliorations de 31,31%/12,88% et 9,69% sur ARC-Easy/ARC-Challenge et MathQA lors de la compensation de LLaMA3-8B quantifié à 4 bits et élagué à une sparsité de 2:4). EoRA offre une solution évolutive et sans entraînement pour compenser les erreurs de compression, en faisant un outil puissant pour déployer les LLMs dans diverses exigences de capacité et d'efficacité.
English
In this work, we re-formulate the model compression problem into the
customized compensation problem: Given a compressed model, we aim to introduce
residual low-rank paths to compensate for compression errors under customized
requirements from users (e.g., tasks, compression ratios), resulting in greater
flexibility in adjusting overall capacity without being constrained by specific
compression formats. However, naively applying SVD to derive residual paths
causes suboptimal utilization of the low-rank representation capacity. Instead,
we propose Training-free Eigenspace Low-Rank Approximation (EoRA), a method
that directly minimizes compression-induced errors without requiring
gradient-based training, achieving fast optimization in minutes using a small
amount of calibration data. EoRA projects compression errors into the
eigenspace of input activations, leveraging eigenvalues to effectively
prioritize the reconstruction of high-importance error components. Moreover,
EoRA can be seamlessly integrated with fine-tuning and quantization to further
improve effectiveness and efficiency. EoRA consistently outperforms previous
methods in compensating errors for compressed LLaMA2/3 models on various tasks,
such as language generation, commonsense reasoning, and math reasoning tasks
(e.g., 31.31%/12.88% and 9.69% improvements on ARC-Easy/ARC-Challenge and
MathQA when compensating LLaMA3-8B that is quantized to 4-bit and pruned to 2:4
sparsity). EoRA offers a scalable, training-free solution to compensate for
compression errors, making it a powerful tool to deploy LLMs in various
capacity and efficiency requirements.Summary
AI-Generated Summary