ChatPaper.aiChatPaper

BitNet v2: Native 4-bit Activaties met Hadamard-transformatie voor 1-bit LLM's

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

April 25, 2025
Auteurs: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI

Samenvatting

Efficiënte implementatie van 1-bit Large Language Models (LLMs) wordt belemmerd door activeringsuitbijters, die kwantisering naar lage bitbreedtes bemoeilijken. We introduceren BitNet v2, een nieuw framework dat native 4-bit activeringskwantisering mogelijk maakt voor 1-bit LLMs. Om uitbijters in activeringen van aandacht en feed-forward netwerken aan te pakken, stellen we H-BitLinear voor, een module die een online Hadamard-transformatie toepast vóór activeringskwantisering. Deze transformatie maakt scherpe activeringsverdelingen gladder en meer Gaussiaans, wat geschikt is voor representatie met lage bitbreedte. Experimenten tonen aan dat BitNet v2, getraind vanaf nul met 8-bit activeringen, de prestaties van BitNet b1.58 evenaart. Cruciaal is dat BitNet v2 minimale prestatievermindering vertoont wanneer het wordt getraind met native 4-bit activeringen, wat het geheugengebruik en de rekenkosten voor batchgewijze inferentie aanzienlijk vermindert.
English
Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.

Summary

AI-Generated Summary

PDF242April 28, 2025