BitNet v2 : Activations natives sur 4 bits avec transformation de Hadamard pour des modèles de langage à 1 bit
BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs
April 25, 2025
Auteurs: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI
Résumé
Le déploiement efficace des modèles de langage de grande taille (LLMs) à 1 bit est entravé par la présence d'outliers dans les activations, ce qui complique la quantification à faible précision. Nous présentons BitNet v2, un nouveau cadre permettant une quantification native des activations à 4 bits pour les LLMs à 1 bit. Pour résoudre le problème des outliers dans les activations des réseaux d'attention et feed-forward, nous proposons H-BitLinear, un module appliquant une transformation de Hadamard en ligne avant la quantification des activations. Cette transformation lisse les distributions d'activations abruptes en des formes plus gaussiennes, adaptées à une représentation à faible précision. Les expériences montrent que BitNet v2, entraîné à partir de zéro avec des activations à 8 bits, atteint des performances comparables à celles de BitNet b1.58. Surtout, BitNet v2 subit une dégradation minimale des performances lorsqu'il est entraîné avec des activations natives à 4 bits, réduisant ainsi significativement l'empreinte mémoire et le coût computationnel pour l'inférence par lots.
English
Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by
activation outliers, which complicate quantization to low bit-widths. We
introduce BitNet v2, a novel framework enabling native 4-bit activation
quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward
network activations, we propose H-BitLinear, a module applying an online
Hadamard transformation prior to activation quantization. This transformation
smooths sharp activation distributions into more Gaussian-like forms, suitable
for low-bit representation. Experiments show BitNet v2 trained from scratch
with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2
achieves minimal performance degradation when trained with native 4-bit
activations, significantly reducing memory footprint and computational cost for
batched inference.Summary
AI-Generated Summary