Repensando a Abordagem em Modelos de Linguagem através de Codificação Posicional Equivariante Contextualizada

Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

January 1, 2025
Autores: Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang
cs.AI

Resumo

Os Transformers dependem tanto de mecanismos de endereçamento baseados em conteúdo quanto em posição para fazer previsões, mas as técnicas de codificação posicional existentes frequentemente diminuem a eficácia do endereçamento baseado em posição. Muitos métodos atuais impõem padrões rígidos nos mapas de atenção, limitando a capacidade de modelar dependências de longo alcance e adaptar-se a tarefas diversas. Além disso, a maioria das codificações posicionais são aprendidas como vieses gerais, carecendo da especialização necessária para diferentes instâncias dentro de um conjunto de dados. Para lidar com isso, propomos a Codificação Posicional Equivariante Contextualizada (TAPE), um novo framework que aprimora as incorporações posicionais ao incorporar conteúdo de sequência em todas as camadas. O TAPE introduz codificações posicionais dinâmicas e sensíveis ao contexto, superando as limitações dos padrões fixos tradicionais. Ao impor a equivariância de permutação e ortogonal, o TAPE garante a estabilidade das codificações posicionais durante as atualizações, melhorando a robustez e adaptabilidade. Nosso método pode ser facilmente integrado aos transformers pré-treinados, oferecendo ajuste fino eficiente de parâmetros com sobrecarga mínima. Experimentos extensos mostram que o TAPE alcança desempenho superior em modelagem de linguagem, raciocínio aritmético e tarefas de recuperação de contexto longo em comparação com as técnicas de incorporação posicional existentes.
English
Transformers rely on both content-based and position-based addressing mechanisms to make predictions, but existing positional encoding techniques often diminish the effectiveness of position-based addressing. Many current methods enforce rigid patterns in attention maps, limiting the ability to model long-range dependencies and adapt to diverse tasks. Additionally, most positional encodings are learned as general biases, lacking the specialization required for different instances within a dataset. To address this, we propose conTextualized equivariAnt Position Embedding (TAPE), a novel framework that enhances positional embeddings by incorporating sequence content across layers. TAPE introduces dynamic, context-aware positional encodings, overcoming the constraints of traditional fixed patterns. By enforcing permutation and orthogonal equivariance, TAPE ensures the stability of positional encodings during updates, improving robustness and adaptability. Our method can be easily integrated into pre-trained transformers, offering parameter-efficient fine-tuning with minimal overhead. Extensive experiments shows that TAPE achieves superior performance in language modeling, arithmetic reasoning, and long-context retrieval tasks compared to existing positional embedding techniques.

Summary

AI-Generated Summary

PDF64January 3, 2025