Attivazioni di Composizione Polinomiale: Liberare la Dinamica dei Grandi Modelli Linguistici
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models
November 6, 2024
Autori: Zhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma
cs.AI
Abstract
I transformer hanno trovato ampie applicazioni in vari settori grazie alle potenti capacità di adattamento. Questo successo può essere parzialmente attribuito alla loro intrinseca non linearità. Pertanto, oltre alla funzione ReLU impiegata nella struttura originale del transformer, i ricercatori hanno esplorato moduli alternativi come GeLU e SwishGLU per potenziare la non linearità e quindi aumentare la capacità rappresentativa. In questo articolo, proponiamo una nuova categoria di attivazioni a composizione polinomiale (PolyCom), progettate per ottimizzare la dinamica dei transformer. Teoricamente, forniamo un'analisi matematica esaustiva di PolyCom, evidenziando la sua espressività e efficacia potenziate rispetto ad altre funzioni di attivazione. In particolare, dimostriamo che le reti che incorporano PolyCom raggiungono il tasso di approssimazione ottimale, indicando che le reti PolyCom richiedono un numero minimo di parametri per approssimare funzioni lisce generali negli spazi di Sobolev. Conduciamo esperimenti empirici sulle configurazioni di pre-training di grandi modelli linguistici (LLM), includendo sia architetture dense che sparse. Sostituendo le funzioni di attivazione convenzionali con PolyCom, consentiamo ai LLM di catturare interazioni di ordine superiore all'interno dei dati, migliorando così le metriche di prestazione in termini di accuratezza e tassi di convergenza. Estesi risultati sperimentali dimostrano l'efficacia del nostro metodo, mostrando miglioramenti sostanziali rispetto ad altre funzioni di attivazione. Il codice è disponibile su https://github.com/BryceZhuo/PolyCom.
English
Transformers have found extensive applications across various domains due to
the powerful fitting capabilities. This success can be partially attributed to
their inherent nonlinearity. Thus, in addition to the ReLU function employed in
the original transformer architecture, researchers have explored alternative
modules such as GeLU and SwishGLU to enhance nonlinearity and thereby augment
representational capacity. In this paper, we propose a novel category of
polynomial composition activations (PolyCom), designed to optimize the dynamics
of transformers. Theoretically, we provide a comprehensive mathematical
analysis of PolyCom, highlighting its enhanced expressivity and efficacy
relative to other activation functions. Notably, we demonstrate that networks
incorporating PolyCom achieve the optimal approximation rate,
indicating that PolyCom networks require minimal parameters to approximate
general smooth functions in Sobolev spaces. We conduct empirical experiments on
the pre-training configurations of large language models (LLMs), including both
dense and sparse architectures. By substituting conventional activation
functions with PolyCom, we enable LLMs to capture higher-order interactions
within the data, thus improving performance metrics in terms of accuracy and
convergence rates. Extensive experimental results demonstrate the effectiveness
of our method, showing substantial improvements over other activation
functions. Code is available at https://github.com/BryceZhuo/PolyCom.Summary
AI-Generated Summary