Legge della sparizione: Verso modelli linguistici di grandi dimensioni con una maggiore attivazione Sparità
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
November 4, 2024
Autori: Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun
cs.AI
Abstract
La sparità dell'attivazione indica l'esistenza di elementi debolmente contribuiti significativi all'interno delle uscite di attivazione che possono essere eliminati, beneficiando molte importanti applicazioni legate ai grandi modelli linguistici (LLM). Sebbene promuovere una maggiore sparità di attivazione all'interno dei LLM meriti approfonditi studi, i lavori esistenti mancano di una ricerca completa e quantitativa sulla correlazione tra la sparità di attivazione e i fattori potenzialmente influenti. In questo articolo, presentiamo uno studio completo sulle proprietà quantitative di ridimensionamento e sui fattori influenti della sparità di attivazione all'interno dei LLM basati solo sul decoder Transformer. In particolare, proponiamo la sparità PPL-p%, una metrica di sparità di attivazione precisa e consapevole delle prestazioni che è applicabile a qualsiasi funzione di attivazione. Attraverso estesi esperimenti, troviamo diversi importanti fenomeni. In primo luogo, diverse funzioni di attivazione mostrano prestazioni comparabili ma opposte tendenze di sparità nel tempo di addestramento. Il rapporto di attivazione (cioè, il rapporto di sparità 1) si evolve come una potenza crescente convergente e come una potenza decrescente in logaritmo con la quantità di dati di addestramento per i LLM attivati con SiLU e ReLU, rispettivamente. Questo dimostra che ReLU è più efficiente come funzione di attivazione rispetto a SiLU e può sfruttare più dati di addestramento per migliorare la sparità di attivazione. In secondo luogo, il rapporto di attivazione aumenta linearmente con il rapporto larghezza-profondità al di sotto di un certo punto di strozzatura, indicando il potenziale vantaggio di un'architettura più profonda a una scala di parametri fissa. Infine, a rapporti larghezza-profondità simili, troviamo sorprendentemente che il valore limite della sparità di attivazione varia debolmente con la scala dei parametri, cioè i modelli di attivazione all'interno dei LLM sono insensibili alla scala dei parametri. Queste leggi empiriche verso i LLM con maggiore sparità di attivazione hanno importanti implicazioni per rendere i LLM più efficienti e interpretabili.
English
Activation sparsity denotes the existence of substantial weakly-contributed
elements within activation outputs that can be eliminated, benefiting many
important applications concerned with large language models (LLMs). Although
promoting greater activation sparsity within LLMs deserves deep studies,
existing works lack comprehensive and quantitative research on the correlation
between activation sparsity and potentially influential factors. In this paper,
we present a comprehensive study on the quantitative scaling properties and
influential factors of the activation sparsity within decoder-only
Transformer-based LLMs. Specifically, we propose PPL-p% sparsity, a precise
and performance-aware activation sparsity metric that is applicable to any
activation function. Through extensive experiments, we find several important
phenomena. Firstly, different activation functions exhibit comparable
performance but opposite training-time sparsity trends. The activation ratio
(i.e., 1-sparsity ratio) evolves as a convergent increasing
power-law and decreasing logspace power-law with the amount of training data
for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate
that ReLU is more efficient as the activation function than SiLU and can
leverage more training data to improve activation sparsity. Secondly, the
activation ratio linearly increases with the width-depth ratio below a certain
bottleneck point, indicating the potential advantage of a deeper architecture
at a fixed parameter scale. Finally, at similar width-depth ratios, we
surprisingly find that the limit value of activation sparsity varies weakly
with the parameter scale, i.e., the activation patterns within LLMs are
insensitive to the parameter scale. These empirical laws towards LLMs with
greater activation sparsity have important implications for making LLMs more
efficient and interpretable.Summary
AI-Generated Summary