Loi de la parcimonie : Vers de grands modèles de langage avec une activation accrue Parcimonie
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
November 4, 2024
Auteurs: Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun
cs.AI
Résumé
La rareté de l'activation désigne l'existence d'éléments faiblement contributifs substantiels au sein des sorties d'activation qui peuvent être éliminés, bénéficiant à de nombreuses applications importantes concernant les grands modèles de langage (LLM). Bien que la promotion d'une plus grande rareté de l'activation au sein des LLM mérite des études approfondies, les travaux existants manquent de recherches complètes et quantitatives sur la corrélation entre la rareté de l'activation et les facteurs potentiellement influents. Dans cet article, nous présentons une étude approfondie sur les propriétés d'échelle quantitative et les facteurs influents de la rareté de l'activation au sein des LLM basés sur des Transformers en mode décodeur uniquement. Plus précisément, nous proposons la rareté PPL-p%, une mesure précise et consciente des performances de la rareté de l'activation qui est applicable à toute fonction d'activation. À travers des expériences approfondies, nous identifions plusieurs phénomènes importants. Tout d'abord, différentes fonctions d'activation présentent des performances comparables mais des tendances de rareté à l'entraînement opposées. Le ratio d'activation (c'est-à-dire, le ratio de rareté) évolue comme une loi de puissance croissante convergente et une loi de puissance décroissante en espace logarithmique avec la quantité de données d'entraînement pour les LLM activés par SiLU et ReLU, respectivement. Cela démontre que ReLU est plus efficace en tant que fonction d'activation que SiLU et peut tirer parti de plus de données d'entraînement pour améliorer la rareté de l'activation. Deuxièmement, le ratio d'activation augmente linéairement avec le ratio largeur-profondeur en dessous d'un certain point de goulot d'étranglement, indiquant l'avantage potentiel d'une architecture plus profonde à une échelle de paramètres fixe. Enfin, à des ratios largeur-profondeur similaires, nous constatons de manière surprenante que la valeur limite de la rareté de l'activation varie faiblement avec l'échelle des paramètres, c'est-à-dire que les motifs d'activation au sein des LLM sont insensibles à l'échelle des paramètres. Ces lois empiriques concernant les LLM avec une plus grande rareté de l'activation ont des implications importantes pour rendre les LLM plus efficaces et interprétables.
English
Activation sparsity denotes the existence of substantial weakly-contributed
elements within activation outputs that can be eliminated, benefiting many
important applications concerned with large language models (LLMs). Although
promoting greater activation sparsity within LLMs deserves deep studies,
existing works lack comprehensive and quantitative research on the correlation
between activation sparsity and potentially influential factors. In this paper,
we present a comprehensive study on the quantitative scaling properties and
influential factors of the activation sparsity within decoder-only
Transformer-based LLMs. Specifically, we propose PPL-p% sparsity, a precise
and performance-aware activation sparsity metric that is applicable to any
activation function. Through extensive experiments, we find several important
phenomena. Firstly, different activation functions exhibit comparable
performance but opposite training-time sparsity trends. The activation ratio
(i.e., 1-sparsity ratio) evolves as a convergent increasing
power-law and decreasing logspace power-law with the amount of training data
for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate
that ReLU is more efficient as the activation function than SiLU and can
leverage more training data to improve activation sparsity. Secondly, the
activation ratio linearly increases with the width-depth ratio below a certain
bottleneck point, indicating the potential advantage of a deeper architecture
at a fixed parameter scale. Finally, at similar width-depth ratios, we
surprisingly find that the limit value of activation sparsity varies weakly
with the parameter scale, i.e., the activation patterns within LLMs are
insensitive to the parameter scale. These empirical laws towards LLMs with
greater activation sparsity have important implications for making LLMs more
efficient and interpretable.Summary
AI-Generated Summary