EvoPress : Vers une Compression Dynamique de Modèle Optimale via une Recherche Évolutive
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search
October 18, 2024
Auteurs: Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh
cs.AI
Résumé
Les coûts de calcul élevés des grands modèles de langage (GML) ont entraîné une multitude de recherches sur la compression des GML, via des méthodes telles que la quantification, la sparisation ou l'élagage structuré. Une nouvelle frontière dans ce domaine est donnée par des méthodes de compression dynamiques et non uniformes, qui ajustent les niveaux de compression (par exemple, la sparsité) par bloc ou même par couche afin de minimiser la perte de précision, tout en garantissant un seuil global de compression. Cependant, les méthodes actuelles reposent sur des heuristiques pour identifier "l'importance" d'une couche donnée pour la perte, basées sur des hypothèses telles que la monotonie de l'erreur, c'est-à-dire que l'erreur de compression du modèle de bout en bout est proportionnelle à la somme des erreurs par couche. Dans cet article, nous revisitons ce domaine et proposons une nouvelle approche générale pour la compression dynamique qui est optimalement prouvable dans une plage d'entrée donnée. Nous partons de l'observation motivante selon laquelle, en général, la monotonie de l'erreur ne s'applique pas aux GML : des modèles compressés avec une somme d'erreurs par couche plus faible peuvent être moins performants que des modèles avec des sommes d'erreurs plus élevées. Pour remédier à cela, nous proposons un nouveau cadre évolutif général pour la compression dynamique des GML appelé EvoPress, qui a une convergence prouvable, une faible complexité d'échantillonnage et d'évaluation. Nous montrons que ces garanties théoriques conduisent à des performances pratiques hautement compétitives pour la compression dynamique des modèles Llama, Mistral et Phi. Via EvoPress, nous établissons de nouveaux résultats de pointe pour toutes les approches de compression : élagage structurel (suppression de bloc/couche), sparsité non structurée, ainsi que la quantification avec des largeurs de bits dynamiques. Notre code est disponible sur https://github.com/IST-DASLab/EvoPress.
English
The high computational costs of large language models (LLMs) have led to a
flurry of research on LLM compression, via methods such as quantization,
sparsification, or structured pruning. A new frontier in this area is given by
dynamic, non-uniform compression methods, which adjust the compression
levels (e.g., sparsity) per-block or even per-layer in order to minimize
accuracy loss, while guaranteeing a global compression threshold. Yet, current
methods rely on heuristics for identifying the "importance" of a given layer
towards the loss, based on assumptions such as error monotonicity, i.e.
that the end-to-end model compression error is proportional to the sum of
layer-wise errors. In this paper, we revisit this area, and propose a new and
general approach for dynamic compression that is provably optimal in a given
input range. We begin from the motivating observation that, in general,
error monotonicity does not hold for LLMs: compressed models with lower
sum of per-layer errors can perform worse than models with higher error
sums. To address this, we propose a new general evolutionary framework for
dynamic LLM compression called EvoPress, which has provable convergence, and
low sample and evaluation complexity. We show that these theoretical guarantees
lead to highly competitive practical performance for dynamic compression of
Llama, Mistral and Phi models. Via EvoPress, we set new state-of-the-art
results across all compression approaches: structural pruning (block/layer
dropping), unstructured sparsity, as well as quantization with dynamic
bitwidths. Our code is available at https://github.com/IST-DASLab/EvoPress.Summary
AI-Generated Summary