EvoPress: Auf dem Weg zur optimalen dynamischen Modellkompression durch evolutionäre Suche
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search
October 18, 2024
Autoren: Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh
cs.AI
Zusammenfassung
Die hohen Rechenkosten großer Sprachmodelle (LLMs) haben zu einer Vielzahl von Forschungsarbeiten zur LLM-Kompression geführt, mittels Methoden wie Quantisierung, Sparsifikation oder strukturiertem Pruning. Eine neue Front in diesem Bereich wird durch dynamische, nicht-uniforme Kompressionsmethoden gebildet, die die Kompressionsniveaus (z.B. Sparsität) pro Block oder sogar pro Schicht anpassen, um den Genauigkeitsverlust zu minimieren, während ein globaler Kompressionsgrenzwert garantiert wird. Dennoch stützen sich aktuelle Methoden auf Heuristiken zur Identifizierung der "Bedeutsamkeit" einer bestimmten Schicht für den Verlust, basierend auf Annahmen wie der Fehlermonotonie, d.h. dass der End-to-End-Modellkompressionsfehler proportional zur Summe der schichtweisen Fehler ist. In diesem Paper überdenken wir diesen Bereich und schlagen einen neuen und allgemeinen Ansatz für dynamische Kompression vor, der in einem gegebenen Eingangsbereich nachweislich optimal ist. Wir beginnen mit der beobachteten Feststellung, dass die Fehlermonotonie im Allgemeinen nicht für LLMs gilt: Komprimierte Modelle mit einer geringeren Summe von schichtweisen Fehlern können schlechter abschneiden als Modelle mit höheren Fehler-Summen. Um dies zu lösen, schlagen wir einen neuen allgemeinen evolutionären Rahmen für die dynamische LLM-Kompression namens EvoPress vor, der nachweislich konvergiert und eine geringe Stichproben- und Evaluierungskomplexität aufweist. Wir zeigen, dass diese theoretischen Garantien zu einer hoch konkurrenzfähigen praktischen Leistung für die dynamische Kompression von Llama, Mistral und Phi-Modellen führen. Über EvoPress setzen wir neue Spitzenwerte für alle Kompressionsansätze: strukturelles Pruning (Block/Schicht-Entfernung), unstrukturierte Sparsität sowie Quantisierung mit dynamischen Bitbreiten. Unser Code ist verfügbar unter https://github.com/IST-DASLab/EvoPress.
English
The high computational costs of large language models (LLMs) have led to a
flurry of research on LLM compression, via methods such as quantization,
sparsification, or structured pruning. A new frontier in this area is given by
dynamic, non-uniform compression methods, which adjust the compression
levels (e.g., sparsity) per-block or even per-layer in order to minimize
accuracy loss, while guaranteeing a global compression threshold. Yet, current
methods rely on heuristics for identifying the "importance" of a given layer
towards the loss, based on assumptions such as error monotonicity, i.e.
that the end-to-end model compression error is proportional to the sum of
layer-wise errors. In this paper, we revisit this area, and propose a new and
general approach for dynamic compression that is provably optimal in a given
input range. We begin from the motivating observation that, in general,
error monotonicity does not hold for LLMs: compressed models with lower
sum of per-layer errors can perform worse than models with higher error
sums. To address this, we propose a new general evolutionary framework for
dynamic LLM compression called EvoPress, which has provable convergence, and
low sample and evaluation complexity. We show that these theoretical guarantees
lead to highly competitive practical performance for dynamic compression of
Llama, Mistral and Phi models. Via EvoPress, we set new state-of-the-art
results across all compression approaches: structural pruning (block/layer
dropping), unstructured sparsity, as well as quantization with dynamic
bitwidths. Our code is available at https://github.com/IST-DASLab/EvoPress.Summary
AI-Generated Summary