EoRA: Training-freie Kompensation für komprimierte LLM mit Eigenraum-Niedrig-Rang-Approximation

Zusammenfassung

In dieser Arbeit formulieren wir das Modellkompressionsproblem neu als das individualisierte Kompensationsproblem: Angesichts eines komprimierten Modells zielen wir darauf ab, residuale Pfade mit niedriger Rangstufe einzuführen, um Kompressionsfehler unter individuellen Anforderungen von Benutzern (z. B. Aufgaben, Kompressionsverhältnisse) auszugleichen, was zu einer größeren Flexibilität bei der Anpassung der Gesamtkapazität führt, ohne durch spezifische Kompressionsformate eingeschränkt zu sein. Allerdings führt die naive Anwendung der Singulärwertzerlegung (SVD) zur Ableitung residueller Pfade zu einer suboptimalen Nutzung der Kapazität der Darstellung mit niedriger Rangstufe. Stattdessen schlagen wir Training-free Eigenspace Low-Rank Approximation (EoRA) vor, eine Methode, die Kompressionsfehler direkt minimiert, ohne auf Gradienten-basiertes Training angewiesen zu sein, und eine schnelle Optimierung in Minuten unter Verwendung einer geringen Menge an Kalibrierungsdaten erreicht. EoRA projiziert Kompressionsfehler in den Eigenraum der Eingangsaktivierungen, wobei Eigenwerte genutzt werden, um die Rekonstruktion von Fehlerkomponenten hoher Bedeutung effektiv zu priorisieren. Darüber hinaus kann EoRA nahtlos mit Feinabstimmung und Quantisierung integriert werden, um die Wirksamkeit und Effizienz weiter zu verbessern. EoRA übertrifft konsistent frühere Methoden bei der Kompensation von Fehlern für komprimierte LLaMA2/3-Modelle in verschiedenen Aufgabenbereichen, wie Sprachgenerierung, Common-Sense-Argumentation und mathematische Argumentation (z. B. 31,31 %/12,88 % und 9,69 % Verbesserungen bei ARC-Easy/ARC-Challenge und MathQA bei der Kompensation von LLaMA3-8B, das auf 4 Bit quantisiert und auf eine 2:4-Spärlichkeit reduziert wurde). EoRA bietet eine skalierbare, training-freie Lösung zur Kompensation von Kompressionsfehlern und ist somit ein leistungsstarkes Werkzeug zur Bereitstellung von LLMs bei verschiedenen Kapazitäts- und Effizienzanforderungen.

English

In this work, we re-formulate the model compression problem into the customized compensation problem: Given a compressed model, we aim to introduce residual low-rank paths to compensate for compression errors under customized requirements from users (e.g., tasks, compression ratios), resulting in greater flexibility in adjusting overall capacity without being constrained by specific compression formats. However, naively applying SVD to derive residual paths causes suboptimal utilization of the low-rank representation capacity. Instead, we propose Training-free Eigenspace Low-Rank Approximation (EoRA), a method that directly minimizes compression-induced errors without requiring gradient-based training, achieving fast optimization in minutes using a small amount of calibration data. EoRA projects compression errors into the eigenspace of input activations, leveraging eigenvalues to effectively prioritize the reconstruction of high-importance error components. Moreover, EoRA can be seamlessly integrated with fine-tuning and quantization to further improve effectiveness and efficiency. EoRA consistently outperforms previous methods in compensating errors for compressed LLaMA2/3 models on various tasks, such as language generation, commonsense reasoning, and math reasoning tasks (e.g., 31.31%/12.88% and 9.69% improvements on ARC-Easy/ARC-Challenge and MathQA when compensating LLaMA3-8B that is quantized to 4-bit and pruned to 2:4 sparsity). EoRA offers a scalable, training-free solution to compensate for compression errors, making it a powerful tool to deploy LLMs in various capacity and efficiency requirements.

EoRA: Training-freie Kompensation für komprimierte LLM mit Eigenraum-Niedrig-Rang-Approximation

EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Zusammenfassung

Summary

Support