Die Ära der 1-Bit-LLMs: Alle großen Sprachmodelle sind in 1,58 Bits.
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
February 27, 2024
Autoren: Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei
cs.AI
Zusammenfassung
Aktuelle Forschungen, wie beispielsweise BitNet, ebnen den Weg für eine neue Ära von 1-Bit-Large Language Models (LLMs). In dieser Arbeit stellen wir eine 1-Bit-LLM-Variante vor, nämlich BitNet b1.58, bei der jeder einzelne Parameter (oder Gewicht) des LLM ternär ist {-1, 0, 1}. Es erreicht die Leistung eines vollpräzisen (d.h. FP16 oder BF16) Transformer-LLMs mit derselben Modellgröße und Trainings-Tokens sowohl in Bezug auf Perplexität als auch auf die Leistung bei Endaufgaben, während es gleichzeitig deutlich kosteneffizienter in Bezug auf Latenz, Speicher, Durchsatz und Energieverbrauch ist. Noch bedeutender ist, dass das 1,58-Bit-LLM ein neues Skalierungsgesetz und eine neue Methode für das Training neuer Generationen von LLMs definiert, die sowohl leistungsstark als auch kosteneffizient sind. Darüber hinaus ermöglicht es ein neues Rechenparadigma und öffnet die Tür für die Entwicklung spezieller Hardware, die für 1-Bit-LLMs optimiert ist.
English
Recent research, such as BitNet, is paving the way for a new era of 1-bit
Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant,
namely BitNet b1.58, in which every single parameter (or weight) of the LLM is
ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16)
Transformer LLM with the same model size and training tokens in terms of both
perplexity and end-task performance, while being significantly more
cost-effective in terms of latency, memory, throughput, and energy consumption.
More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for
training new generations of LLMs that are both high-performance and
cost-effective. Furthermore, it enables a new computation paradigm and opens
the door for designing specific hardware optimized for 1-bit LLMs.Summary
AI-Generated Summary