Incorporação de Posição de Fourier: Aprimorando a Extensão Periódica da Atenção para Generalização de Comprimento
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
December 23, 2024
Autores: Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Ning Ding, Youbang Sun, Biqing Qi, Yuchen Fan, Xue Kai Zhu, Bowen Zhou
cs.AI
Resumo
Aumentar o comprimento do contexto dos Modelos de Linguagem (LMs) ao melhorar a Incorporação de Posição Rotativa (RoPE) tornou-se uma tendência. Enquanto os trabalhos existentes abordam principalmente as limitações de RoPE dentro do mecanismo de atenção, este artigo fornece uma análise abrangente em quase todas as partes dos LMs, revelando seus efeitos adversos na generalização do comprimento para a atenção baseada em RoPE. Utilizando a teoria do Processamento de Sinal Discreto, mostramos que RoPE permite atenção periódica ao alcançar implicitamente a Transformada Discreta de Fourier Não-Uniforme. No entanto, essa periodicidade é prejudicada pelo dano espectral causado por: 1) camadas lineares e funções de ativação fora da atenção; 2) componentes de frequência insuficientemente treinados trazidos pela truncagem no domínio do tempo. Com base em nossas observações, propomos a Incorporação de Posição de Fourier (FoPE), que aprimora as propriedades de domínio de frequência da atenção para melhorar tanto sua extensão periódica quanto a generalização do comprimento. FoPE constrói Séries de Fourier e elimina os componentes de frequência destrutivos, aumentando a robustez do modelo contra o dano espectral. Experimentos em diversas escalas de modelo mostram que, em janelas de contexto variáveis, FoPE pode manter uma perplexidade mais estável e uma precisão mais consistente em uma tarefa de agulha no palheiro em comparação com RoPE e ALiBi. Diversas análises e ablações trazem mais suporte ao nosso método e modelagem teórica.
English
Extending the context length of Language Models (LMs) by improving Rotary
Position Embedding (RoPE) has become a trend. While existing works mainly
address RoPE's limitations within attention mechanism, this paper provides an
analysis across nearly all parts of LMs, uncovering their adverse effects on
length generalization for RoPE-based attention. Using Discrete Signal
Processing theory, we show that RoPE enables periodic attention by implicitly
achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is
undermined by the spectral damage caused by: 1) linear layers and activation
functions outside of attention; 2) insufficiently trained frequency components
brought by time-domain truncation. Building on our observations, we propose
Fourier Position Embedding (FoPE), which enhances attention's frequency-domain
properties to improve both its periodic extension and length generalization.
FoPE constructs Fourier Series and zero-outs the destructive frequency
components, increasing model robustness against the spectrum damage.
Experiments across various model scales show that, within varying context
windows, FoPE can maintain a more stable perplexity and a more consistent
accuracy in a needle-in-haystack task compared to RoPE and ALiBi. Several
analyses and ablations bring further support to our method and theoretical
modeling.Summary
AI-Generated Summary