Legge di densificazione dei LLM
Densing Law of LLMs
December 5, 2024
Autori: Chaojun Xiao, Jie Cai, Weilin Zhao, Guoyang Zeng, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Abstract
I Large Language Models (LLM) sono emersi come un traguardo nell'intelligenza artificiale, e le loro prestazioni possono migliorare all'aumentare delle dimensioni del modello. Tuttavia, questa scalabilità porta grandi sfide all'efficienza di addestramento e inferenza, specialmente per il dispiegamento di LLM in ambienti con risorse limitate, e la tendenza alla scalabilità sta diventando sempre più insostenibile. Questo articolo introduce il concetto di "densità di capacità" come nuova metrica per valutare la qualità dei LLM su diverse scale e descrive la tendenza dei LLM in termini di efficacia ed efficienza. Per calcolare la densità di capacità di un determinato LLM target, introduciamo innanzitutto un insieme di modelli di riferimento e sviluppiamo una legge di scalabilità per prevedere le prestazioni a valle di questi modelli di riferimento in base alle dimensioni dei parametri. Definiamo quindi la dimensione effettiva dei parametri del LLM target come la dimensione dei parametri richiesta da un modello di riferimento per ottenere prestazioni equivalenti e formalizziamo la densità di capacità come il rapporto tra la dimensione effettiva dei parametri e la dimensione effettiva dei parametri del LLM target. La densità di capacità fornisce un quadro unificato per valutare sia l'efficacia che l'efficienza del modello. La nostra ulteriore analisi dei recenti LLM di base open-source rivela una legge empirica (la legge del densing) secondo cui la densità di capacità dei LLM cresce in modo esponenziale nel tempo. Più specificamente, utilizzando alcuni benchmark ampiamente utilizzati per la valutazione, la densità di capacità dei LLM raddoppia approssimativamente ogni tre mesi. La legge fornisce nuove prospettive per guidare lo sviluppo futuro dei LLM, sottolineando l'importanza del miglioramento della densità di capacità per ottenere risultati ottimali con un minimo dispendio computazionale.
English
Large Language Models (LLMs) have emerged as a milestone in artificial
intelligence, and their performance can improve as the model size increases.
However, this scaling brings great challenges to training and inference
efficiency, particularly for deploying LLMs in resource-constrained
environments, and the scaling trend is becoming increasingly unsustainable.
This paper introduces the concept of ``capacity density'' as a new
metric to evaluate the quality of the LLMs across different scales and
describes the trend of LLMs in terms of both effectiveness and efficiency. To
calculate the capacity density of a given target LLM, we first introduce a set
of reference models and develop a scaling law to predict the downstream
performance of these reference models based on their parameter sizes. We then
define the effective parameter size of the target LLM as the parameter
size required by a reference model to achieve equivalent performance, and
formalize the capacity density as the ratio of the effective parameter size to
the actual parameter size of the target LLM. Capacity density provides a
unified framework for assessing both model effectiveness and efficiency. Our
further analysis of recent open-source base LLMs reveals an empirical law (the
densing law)that the capacity density of LLMs grows exponentially over time.
More specifically, using some widely used benchmarks for evaluation, the
capacity density of LLMs doubles approximately every three months. The law
provides new perspectives to guide future LLM development, emphasizing the
importance of improving capacity density to achieve optimal results with
minimal computational overhead.Summary
AI-Generated Summary