EvoPress: Naar optimale dynamische modelcompressie via evolutionaire zoektocht
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search
October 18, 2024
Auteurs: Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh
cs.AI
Samenvatting
De hoge rekenkundige kosten van grote taalmodellen (LLM's) hebben geleid tot een golf van onderzoek naar LLM-compressie, via methoden zoals kwantisering, sparsheden, of gestructureerd snoeien. Een nieuwe frontlinie op dit gebied wordt gevormd door dynamische, niet-uniforme compressiemethoden, die de compressieniveaus (bijv. sparsheden) per blok of zelfs per laag aanpassen om nauwkeurigheidsverlies te minimaliseren, terwijl ze een globale compressiedrempel garanderen. Toch vertrouwen huidige methoden op heuristieken om de "belangrijkheid" van een bepaalde laag voor het verlies te identificeren, gebaseerd op aannames zoals foutmonotonie, d.w.z. dat de compressiefout van het end-to-end model evenredig is met de som van de fouten per laag. In dit artikel herzien we dit gebied en stellen we een nieuwe en algemene benadering voor dynamische compressie voor die aantoonbaar optimaal is binnen een gegeven invoerbereik. We vertrekken vanuit de motiverende observatie dat, over het algemeen, foutmonotonie niet geldt voor LLM's: gecomprimeerde modellen met een lagere som van per-laag fouten kunnen slechter presteren dan modellen met hogere foutensommen. Om dit aan te pakken, stellen we een nieuw algemeen evolutionair kader voor dynamische LLM-compressie voor genaamd EvoPress, dat aantoonbare convergentie heeft, en lage steekproef- en evaluatiecomplexiteit. We tonen aan dat deze theoretische garanties leiden tot zeer competitieve praktische prestaties voor dynamische compressie van Llama, Mistral en Phi modellen. Via EvoPress behalen we nieuwe state-of-the-art resultaten voor alle compressiebenaderingen: structureel snoeien (blok/laag laten vallen), ongestructureerde sparsheden, evenals kwantisering met dynamische bitbreedtes. Onze code is beschikbaar op https://github.com/IST-DASLab/EvoPress.
English
The high computational costs of large language models (LLMs) have led to a
flurry of research on LLM compression, via methods such as quantization,
sparsification, or structured pruning. A new frontier in this area is given by
dynamic, non-uniform compression methods, which adjust the compression
levels (e.g., sparsity) per-block or even per-layer in order to minimize
accuracy loss, while guaranteeing a global compression threshold. Yet, current
methods rely on heuristics for identifying the "importance" of a given layer
towards the loss, based on assumptions such as error monotonicity, i.e.
that the end-to-end model compression error is proportional to the sum of
layer-wise errors. In this paper, we revisit this area, and propose a new and
general approach for dynamic compression that is provably optimal in a given
input range. We begin from the motivating observation that, in general,
error monotonicity does not hold for LLMs: compressed models with lower
sum of per-layer errors can perform worse than models with higher error
sums. To address this, we propose a new general evolutionary framework for
dynamic LLM compression called EvoPress, which has provable convergence, and
low sample and evaluation complexity. We show that these theoretical guarantees
lead to highly competitive practical performance for dynamic compression of
Llama, Mistral and Phi models. Via EvoPress, we set new state-of-the-art
results across all compression approaches: structural pruning (block/layer
dropping), unstructured sparsity, as well as quantization with dynamic
bitwidths. Our code is available at https://github.com/IST-DASLab/EvoPress.Summary
AI-Generated Summary