ChatPaper.aiChatPaper

BitNet v2: Native 4-Bit-Aktivierungen mit Hadamard-Transformation für 1-Bit-LLMs

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

April 25, 2025
Autoren: Hongyu Wang, Shuming Ma, Furu Wei
cs.AI

Zusammenfassung

Die effiziente Bereitstellung von 1-Bit Large Language Models (LLMs) wird durch Aktivierungsausreißer behindert, die die Quantisierung auf niedrige Bitbreiten erschweren. Wir stellen BitNet v2 vor, ein neuartiges Framework, das eine native 4-Bit-Aktivierungsquantisierung für 1-Bit-LLMs ermöglicht. Um Ausreißer in den Aktivierungen des Attention-Mechanismus und des Feed-Forward-Netzwerks zu bewältigen, schlagen wir H-BitLinear vor, ein Modul, das eine Online-Hadamard-Transformation vor der Aktivierungsquantisierung anwendet. Diese Transformation glättet scharfe Aktivierungsverteilungen in gaussähnliche Formen, die für die Darstellung mit niedriger Bitbreite geeignet sind. Experimente zeigen, dass BitNet v2, das von Grund auf mit 8-Bit-Aktivierungen trainiert wurde, die Leistung von BitNet b1.58 erreicht. Entscheidend ist, dass BitNet v2 bei einem Training mit nativen 4-Bit-Aktivierungen nur minimale Leistungseinbußen aufweist, wodurch der Speicherbedarf und die Rechenkosten für die Stapelverarbeitung erheblich reduziert werden.
English
Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.

Summary

AI-Generated Summary

PDF221April 28, 2025