Het tijdperk van 1-bit LLM's: Alle grote taalmodellen zijn in 1,58 bits

Samenvatting

Recent onderzoek, zoals BitNet, baant de weg voor een nieuw tijdperk van 1-bit Large Language Models (LLMs). In dit werk introduceren we een 1-bit LLM-variant, genaamd BitNet b1.58, waarin elke parameter (of gewicht) van de LLM ternair is {-1, 0, 1}. Het evenaart de volledige precisie (d.w.z. FP16 of BF16) Transformer LLM met dezelfde modelgrootte en trainings-tokens wat betreft zowel perplexiteit als eindtaakprestaties, terwijl het aanzienlijk kosteneffectiever is op het gebied van latentie, geheugen, doorvoer en energieverbruik. Diepgaander definieert de 1.58-bit LLM een nieuwe schaalwet en receptuur voor het trainen van nieuwe generaties LLMs die zowel hoogwaardig als kosteneffectief zijn. Bovendien maakt het een nieuw rekenparadigma mogelijk en opent het de deur voor het ontwerpen van specifieke hardware die is geoptimaliseerd voor 1-bit LLMs.

English

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

Het tijdperk van 1-bit LLM's: Alle grote taalmodellen zijn in 1,58 bits

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Samenvatting

Summary

Support