La quantizzazione a basso bit favorisce i LLM sottallenati: leggi di scala per i LLM quantizzati con 100T token di addestramento.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
November 26, 2024
Autori: Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu
cs.AI
Abstract
Riveliamo che la quantizzazione a bassi bit favorisce i grandi modelli linguistici (LLM) scarsamente addestrati osservando che i modelli di dimensioni maggiori o con meno token di addestramento subiscono una minore degradazione indotta dalla quantizzazione (QiD) quando si applica una quantizzazione a bassi bit, mentre i modelli più piccoli con un numero esteso di token di addestramento subiscono una significativa QiD. Per ottenere approfondimenti su questa tendenza, studiamo oltre 1500 checkpoint LLM quantizzati di varie dimensioni e a diversi livelli di addestramento (scarsamente addestrati o completamente addestrati) in un contesto controllato, derivando leggi di scala per comprendere la relazione tra QiD e fattori come il numero di token di addestramento, la dimensione del modello e la larghezza dei bit.
Con le leggi di scala derivate, proponiamo una prospettiva innovativa che ci permette di utilizzare QiD per misurare i livelli di addestramento di un LLM e determinare il numero di token di addestramento necessari per addestrare completamente LLM di varie dimensioni. Inoltre, utilizziamo le leggi di scala per prevedere le prestazioni di quantizzazione di LLM di diverse dimensioni addestrati con 100 trilioni di token. La nostra proiezione mostra che le prestazioni di quantizzazione a bassi bit dei futuri modelli, che si prevede saranno addestrati con oltre 100 trilioni di token, potrebbero NON essere desiderabili. Ciò rappresenta una potenziale sfida per la quantizzazione a bassi bit in futuro e sottolinea la necessità di essere consapevoli del livello di addestramento di un modello durante la valutazione della ricerca sulla quantizzazione a bassi bit. Per agevolare la ricerca futura su questo problema, rilasciamo tutti i 1500+ checkpoint quantizzati utilizzati in questo lavoro su https://huggingface.co/Xu-Ouyang.
English
We reveal that low-bit quantization favors undertrained large language models
(LLMs) by observing that models with larger sizes or fewer training tokens
experience less quantization-induced degradation (QiD) when applying low-bit
quantization, whereas smaller models with extensive training tokens suffer
significant QiD. To gain deeper insights into this trend, we study over 1500
quantized LLM checkpoints of various sizes and at different training levels
(undertrained or fully trained) in a controlled setting, deriving scaling laws
for understanding the relationship between QiD and factors such as the number
of training tokens, model size and bit width.
With the derived scaling laws, we propose a novel perspective that we can use
QiD to measure an LLM's training levels and determine the number of training
tokens required for fully training LLMs of various sizes. Moreover, we use the
scaling laws to predict the quantization performance of different-sized LLMs
trained with 100 trillion tokens. Our projection shows that the low-bit
quantization performance of future models, which are expected to be trained
with over 100 trillion tokens, may NOT be desirable. This poses a potential
challenge for low-bit quantization in the future and highlights the need for
awareness of a model's training level when evaluating low-bit quantization
research. To facilitate future research on this problem, we release all the
1500+ quantized checkpoints used in this work at
https://huggingface.co/Xu-Ouyang.Summary
AI-Generated Summary