ChatPaper.aiChatPaper

BitNet b1.58 2B4T Technischer Bericht

BitNet b1.58 2B4T Technical Report

April 16, 2025
Autoren: Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei
cs.AI

Zusammenfassung

Wir stellen BitNet b1.58 2B4T vor, das erste Open-Source, native 1-Bit Large Language Model (LLM) mit 2 Milliarden Parametern. Das Modell, das auf einem Korpus von 4 Billionen Tokens trainiert wurde, wurde umfassend anhand von Benchmarks bewertet, die Sprachverständnis, mathematisches Denken, Programmierfähigkeiten und Konversationsfähigkeit abdecken. Unsere Ergebnisse zeigen, dass BitNet b1.58 2B4T eine Leistung erzielt, die mit führenden Open-Weight, Full-Precision LLMs ähnlicher Größe vergleichbar ist, während es erhebliche Vorteile in Bezug auf die Recheneffizienz bietet, einschließlich eines deutlich reduzierten Speicherbedarfs, Energieverbrauchs und Decodierungslatenz. Um weitere Forschung und Nutzung zu erleichtern, werden die Modellgewichte über Hugging Face veröffentlicht, zusammen mit Open-Source-Inferenzimplementierungen für GPU- und CPU-Architekturen.
English
We introduce BitNet b1.58 2B4T, the first open-source, native 1-bit Large Language Model (LLM) at the 2-billion parameter scale. Trained on a corpus of 4 trillion tokens, the model has been rigorously evaluated across benchmarks covering language understanding, mathematical reasoning, coding proficiency, and conversational ability. Our results demonstrate that BitNet b1.58 2B4T achieves performance on par with leading open-weight, full-precision LLMs of similar size, while offering significant advantages in computational efficiency, including substantially reduced memory footprint, energy consumption, and decoding latency. To facilitate further research and adoption, the model weights are released via Hugging Face along with open-source inference implementations for both GPU and CPU architectures.

Summary

AI-Generated Summary

PDF662April 17, 2025