"Donnez-moi du BF16 ou donnez-moi la mort"? Compromis entre précision et performance dans la quantification des LLM
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization
November 4, 2024
Auteurs: Eldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh
cs.AI
Résumé
Malgré la popularité de la quantification des grands modèles de langage (LLM) pour l'accélération de l'inférence, une incertitude significative persiste concernant les compromis entre précision et performance associés à divers formats de quantification. Nous présentons une étude empirique complète de la précision quantifiée, évaluant les formats de quantification populaires (FP8, INT8, INT4) sur des références académiques et des tâches du monde réel, sur l'ensemble de la famille de modèles Llama-3.1. De plus, notre étude examine la différence de texte généré par les modèles quantifiés par rapport à leurs homologues non compressés. Au-delà des références, nous présentons également quelques améliorations de la quantification qui nous ont permis d'obtenir des résultats de récupération de précision de pointe. Notre enquête, englobant plus de 500 000 évaluations individuelles, révèle plusieurs conclusions clés : (1) la quantification des poids et activations en FP8 (W8A8-FP) est sans perte sur toutes les échelles de modèle, (2) la quantification des poids et activations en INT8 (W8A8-INT), lorsqu'elle est correctement réglée, entraîne une dégradation de précision étonnamment faible de 1 à 3 %, et (3) la quantification des poids uniquement en INT4 (W4A16-INT) est compétitive avec la quantification des poids et activations en entiers sur 8 bits. Pour répondre à la question du "meilleur" format pour un environnement de déploiement donné, nous menons une analyse des performances d'inférence en utilisant le populaire framework open-source vLLM sur diverses architectures GPU. Nous constatons que W4A16 offre la meilleure rentabilité pour les déploiements synchrones, et pour les déploiements asynchrones sur des GPU de milieu de gamme. Dans le même temps, les formats W8A8 excellent dans le déploiement asynchrone en "batch continu" de modèles de taille moyenne et grande sur des GPU haut de gamme. Nos résultats fournissent un ensemble de lignes directrices pratiques pour le déploiement de LLM quantifiés à travers différentes échelles et exigences de performance.
English
Despite the popularity of large language model (LLM) quantization for
inference acceleration, significant uncertainty remains regarding the
accuracy-performance trade-offs associated with various quantization formats.
We present a comprehensive empirical study of quantized accuracy, evaluating
popular quantization formats (FP8, INT8, INT4) across academic benchmarks and
real-world tasks, on the entire Llama-3.1 model family. Additionally, our study
examines the difference in text generated by quantized models versus their
uncompressed counterparts. Beyond benchmarks, we also present a couple of
quantization improvements which allowed us to obtain state-of-the-art accuracy
recovery results. Our investigation, encompassing over 500,000 individual
evaluations, yields several key findings: (1) FP8 weight and activation
quantization (W8A8-FP) is lossless across all model scales, (2) INT8 weight and
activation quantization (W8A8-INT), when properly tuned, incurs surprisingly
low 1-3% accuracy degradation, and (3) INT4 weight-only quantization
(W4A16-INT) is competitive with 8-bit integer weight and activation
quantization. To address the question of the "best" format for a given
deployment environment, we conduct inference performance analysis using the
popular open-source vLLM framework on various GPU architectures. We find that
W4A16 offers the best cost-efficiency for synchronous deployments, and for
asynchronous deployment on mid-tier GPUs. At the same time, W8A8 formats excel
in asynchronous "continuous batching" deployment of mid- and large-size models
on high-end GPUs. Our results provide a set of practical guidelines for
deploying quantized LLMs across scales and performance requirements.Summary
AI-Generated Summary