L'ère des LLM 1-bit : Tous les grands modèles de langage sont en 1,58 bits
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
February 27, 2024
Auteurs: Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei
cs.AI
Résumé
Les recherches récentes, telles que BitNet, ouvrent la voie à une nouvelle ère de modèles de langage à grande échelle (LLM) à 1 bit. Dans ce travail, nous présentons une variante de LLM à 1 bit, nommée BitNet b1.58, dans laquelle chaque paramètre (ou poids) du LLM est ternaire {-1, 0, 1}. Ce modèle atteint des performances comparables à celles d'un LLM Transformer en précision complète (c'est-à-dire FP16 ou BF16) avec la même taille de modèle et le même nombre de tokens d'entraînement, tant en termes de perplexité que de performance sur les tâches finales, tout en étant nettement plus rentable en termes de latence, de mémoire, de débit et de consommation d'énergie. Plus profondément, le LLM à 1,58 bit définit une nouvelle loi d'échelle et une méthode pour entraîner les nouvelles générations de LLM, à la fois performants et économiques. En outre, il permet un nouveau paradigme de calcul et ouvre la voie à la conception de matériel spécifiquement optimisé pour les LLM à 1 bit.
English
Recent research, such as BitNet, is paving the way for a new era of 1-bit
Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant,
namely BitNet b1.58, in which every single parameter (or weight) of the LLM is
ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16)
Transformer LLM with the same model size and training tokens in terms of both
perplexity and end-task performance, while being significantly more
cost-effective in terms of latency, memory, throughput, and energy consumption.
More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for
training new generations of LLMs that are both high-performance and
cost-effective. Furthermore, it enables a new computation paradigm and opens
the door for designing specific hardware optimized for 1-bit LLMs.Summary
AI-Generated Summary