Het tijdperk van 1-bit LLM's: Alle grote taalmodellen zijn in 1,58 bits
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
February 27, 2024
Auteurs: Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei
cs.AI
Samenvatting
Recent onderzoek, zoals BitNet, baant de weg voor een nieuw tijdperk van 1-bit Large Language Models (LLMs). In dit werk introduceren we een 1-bit LLM-variant, genaamd BitNet b1.58, waarin elke parameter (of gewicht) van de LLM ternair is {-1, 0, 1}. Het evenaart de volledige precisie (d.w.z. FP16 of BF16) Transformer LLM met dezelfde modelgrootte en trainings-tokens wat betreft zowel perplexiteit als eindtaakprestaties, terwijl het aanzienlijk kosteneffectiever is op het gebied van latentie, geheugen, doorvoer en energieverbruik. Diepgaander definieert de 1.58-bit LLM een nieuwe schaalwet en receptuur voor het trainen van nieuwe generaties LLMs die zowel hoogwaardig als kosteneffectief zijn. Bovendien maakt het een nieuw rekenparadigma mogelijk en opent het de deur voor het ontwerpen van specifieke hardware die is geoptimaliseerd voor 1-bit LLMs.
English
Recent research, such as BitNet, is paving the way for a new era of 1-bit
Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant,
namely BitNet b1.58, in which every single parameter (or weight) of the LLM is
ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16)
Transformer LLM with the same model size and training tokens in terms of both
perplexity and end-task performance, while being significantly more
cost-effective in terms of latency, memory, throughput, and energy consumption.
More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for
training new generations of LLMs that are both high-performance and
cost-effective. Furthermore, it enables a new computation paradigm and opens
the door for designing specific hardware optimized for 1-bit LLMs.Summary
AI-Generated Summary