Sparsheitsgesetz: Auf dem Weg zu großen Sprachmodellen mit stärkerer Aktivierung Sparsheit
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
November 4, 2024
Autoren: Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun
cs.AI
Zusammenfassung
Die Aktivierungssparsamkeit bezeichnet das Vorhandensein von erheblichen schwach beitragenden Elementen innerhalb der Aktivierungsausgaben, die eliminiert werden können und vielen wichtigen Anwendungen zugutekommen, die sich mit großen Sprachmodellen (LLMs) befassen. Obwohl eine Förderung einer größeren Aktivierungssparsamkeit innerhalb von LLMs eingehende Untersuchungen verdient, fehlt es den bestehenden Arbeiten an umfassender und quantitativer Forschung über die Korrelation zwischen Aktivierungssparsamkeit und potenziell einflussreichen Faktoren. In diesem Artikel präsentieren wir eine umfassende Studie über die quantitativen Skalierungseigenschaften und Einflussfaktoren der Aktivierungssparsamkeit innerhalb von Decoder-only Transformer-basierten LLMs. Speziell schlagen wir PPL-p% Sparsamkeit vor, eine präzise und leistungsorientierte Aktivierungssparsamkeitsmetrik, die auf jede Aktivierungsfunktion anwendbar ist. Durch umfangreiche Experimente finden wir mehrere wichtige Phänomene. Erstens zeigen verschiedene Aktivierungsfunktionen vergleichbare Leistungen, aber entgegengesetzte Trends der Sparsamkeit während des Trainings. Das Aktivierungsverhältnis (d.h. 1-Sparsamkeitsverhältnis) entwickelt sich als konvergierendes zunehmendes Potenzgesetz und abnehmendes Logspace-Potenzgesetz mit der Menge der Trainingsdaten für SiLU-aktivierte und ReLU-aktivierte LLMs, jeweils. Dies zeigt, dass ReLU effizienter als Aktivierungsfunktion als SiLU ist und mehr Trainingsdaten nutzen kann, um die Aktivierungssparsamkeit zu verbessern. Zweitens steigt das Aktivierungsverhältnis linear mit dem Breite-Tiefe-Verhältnis unterhalb eines bestimmten Engpasspunktes an, was auf den potenziellen Vorteil einer tieferen Architektur bei einer festen Parametergröße hinweist. Schließlich stellen wir fest, dass bei ähnlichen Breite-Tiefe-Verhältnissen der Grenzwert der Aktivierungssparsamkeit überraschenderweise schwach mit der Parametergröße variiert, d.h. die Aktivierungsmuster innerhalb von LLMs sind unempfindlich gegenüber der Parametergröße. Diese empirischen Gesetze in Bezug auf LLMs mit größerer Aktivierungssparsamkeit haben wichtige Implikationen für die Effizienz und Interpretierbarkeit von LLMs.
English
Activation sparsity denotes the existence of substantial weakly-contributed
elements within activation outputs that can be eliminated, benefiting many
important applications concerned with large language models (LLMs). Although
promoting greater activation sparsity within LLMs deserves deep studies,
existing works lack comprehensive and quantitative research on the correlation
between activation sparsity and potentially influential factors. In this paper,
we present a comprehensive study on the quantitative scaling properties and
influential factors of the activation sparsity within decoder-only
Transformer-based LLMs. Specifically, we propose PPL-p% sparsity, a precise
and performance-aware activation sparsity metric that is applicable to any
activation function. Through extensive experiments, we find several important
phenomena. Firstly, different activation functions exhibit comparable
performance but opposite training-time sparsity trends. The activation ratio
(i.e., 1-sparsity ratio) evolves as a convergent increasing
power-law and decreasing logspace power-law with the amount of training data
for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate
that ReLU is more efficient as the activation function than SiLU and can
leverage more training data to improve activation sparsity. Secondly, the
activation ratio linearly increases with the width-depth ratio below a certain
bottleneck point, indicating the potential advantage of a deeper architecture
at a fixed parameter scale. Finally, at similar width-depth ratios, we
surprisingly find that the limit value of activation sparsity varies weakly
with the parameter scale, i.e., the activation patterns within LLMs are
insensitive to the parameter scale. These empirical laws towards LLMs with
greater activation sparsity have important implications for making LLMs more
efficient and interpretable.Summary
AI-Generated Summary