Incorporazione della posizione di Fourier: potenziamento dell'estensione periodica dell'attenzione per la generalizzazione della lunghezza
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
December 23, 2024
Autori: Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Ning Ding, Youbang Sun, Biqing Qi, Yuchen Fan, Xue Kai Zhu, Bowen Zhou
cs.AI
Abstract
Estendere la lunghezza del contesto dei Modelli Linguistici (LM) migliorando l'Incorporamento della Posizione Rotativa (RoPE) è diventato una tendenza. Mentre i lavori esistenti affrontano principalmente le limitazioni di RoPE all'interno del meccanismo di attenzione, questo articolo fornisce un'analisi su quasi tutte le parti dei LM, scoprendo i loro effetti negativi sulla generalizzazione della lunghezza per l'attenzione basata su RoPE. Utilizzando la teoria del Trattamento del Segnale Discreto, mostriamo che RoPE consente un'attenzione periodica raggiungendo implicitamente la Trasformata di Fourier Discreta Non Uniforme. Tuttavia, questa periodicità è compromessa dal danno spettrale causato da: 1) strati lineari e funzioni di attivazione al di fuori dell'attenzione; 2) componenti di frequenza insufficientemente addestrate portate dalla troncatura nel dominio del tempo. Sulla base delle nostre osservazioni, proponiamo l'Incorporamento della Posizione di Fourier (FoPE), che potenzia le proprietà nel dominio delle frequenze dell'attenzione per migliorare sia la sua estensione periodica che la generalizzazione della lunghezza. FoPE costruisce la Serie di Fourier e annulla le componenti di frequenza distruttive, aumentando la robustezza del modello contro il danno spettrale. Gli esperimenti su varie scale di modelli mostrano che, all'interno di finestre di contesto variabili, FoPE può mantenere una perplessità più stabile e una precisione più coerente in un compito di ricerca dell'ago nel pagliaio rispetto a RoPE e ALiBi. Diverse analisi e ablati forniscono ulteriore supporto al nostro metodo e alla modellazione teorica.
English
Extending the context length of Language Models (LMs) by improving Rotary
Position Embedding (RoPE) has become a trend. While existing works mainly
address RoPE's limitations within attention mechanism, this paper provides an
analysis across nearly all parts of LMs, uncovering their adverse effects on
length generalization for RoPE-based attention. Using Discrete Signal
Processing theory, we show that RoPE enables periodic attention by implicitly
achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is
undermined by the spectral damage caused by: 1) linear layers and activation
functions outside of attention; 2) insufficiently trained frequency components
brought by time-domain truncation. Building on our observations, we propose
Fourier Position Embedding (FoPE), which enhances attention's frequency-domain
properties to improve both its periodic extension and length generalization.
FoPE constructs Fourier Series and zero-outs the destructive frequency
components, increasing model robustness against the spectrum damage.
Experiments across various model scales show that, within varying context
windows, FoPE can maintain a more stable perplexity and a more consistent
accuracy in a needle-in-haystack task compared to RoPE and ALiBi. Several
analyses and ablations bring further support to our method and theoretical
modeling.Summary
AI-Generated Summary