Leggi di scalabilità per l'addestramento con quantizzazione in virgola mobile.

Abstract

L'addestramento a bassa precisione è considerato una strategia efficace per ridurre sia i costi di addestramento che quelli di inferenza successiva. Le leggi di scala precedenti per la precisione si concentrano principalmente sulla quantizzazione degli interi, che presta meno attenzione agli elementi costitutivi nella quantizzazione in virgola mobile e quindi non si adattano bene alle perdite LLM in questo scenario. Al contrario, sebbene l'addestramento con quantizzazione in virgola mobile sia più comunemente implementato in produzione, la ricerca su di esso è stata relativamente superficiale. In questo articolo, esploriamo approfonditamente gli effetti degli obiettivi di quantizzazione in virgola mobile, dei bit dell'esponente, dei bit della mantissa e della granularità di calcolo del fattore di scala sulle prestazioni di addestramento dei modelli LLM con quantizzazione in virgola mobile. Presentando una legge di scala unificata accurata per la quantizzazione in virgola mobile, forniamo anche suggerimenti preziosi per la comunità: (1) I bit dell'esponente contribuiscono leggermente di più alle prestazioni del modello rispetto ai bit della mantissa. Forniamo il rapporto ottimale tra bit dell'esponente e della mantissa per diversi numeri di bit, disponibile per futuri riferimenti da parte dei produttori di hardware; (2) Scopriamo la formazione delle dimensioni critiche dei dati nell'addestramento LLM a bassa precisione. Troppi dati di addestramento che superano le dimensioni critiche porteranno inversamente a una degradazione delle prestazioni LLM; (3) La precisione ottimale di quantizzazione in virgola mobile è direttamente proporzionale alla potenza computazionale, ma all'interno di un'ampia gamma di potenza computazionale, stimiamo che la migliore precisione in termini di costo-prestazioni si situi tra 4 e 8 bit.

English

Low-precision training is considered an effective strategy for reducing both training and downstream inference costs. Previous scaling laws for precision mainly focus on integer quantization, which pay less attention to the constituents in floating-point quantization and thus cannot well fit the LLM losses in this scenario. In contrast, while floating-point quantization training is more commonly implemented in production, the research on it has been relatively superficial. In this paper, we thoroughly explore the effects of floating-point quantization targets, exponent bits, mantissa bits, and the calculation granularity of the scaling factor in floating-point quantization training performance of LLM models. While presenting an accurate floating-point quantization unified scaling law, we also provide valuable suggestions for the community: (1) Exponent bits contribute slightly more to the model performance than mantissa bits. We provide the optimal exponent-mantissa bit ratio for different bit numbers, which is available for future reference by hardware manufacturers; (2) We discover the formation of the critical data size in low-precision LLM training. Too much training data exceeding the critical data size will inversely bring in degradation of LLM performance; (3) The optimal floating-point quantization precision is directly proportional to the computational power, but within a wide computational power range, we estimate that the best cost-performance precision lies between 4-8 bits.

Leggi di scalabilità per l'addestramento con quantizzazione in virgola mobile.

Scaling Laws for Floating Point Quantization Training

Abstract

Summary

Support