Ripensare l'Indirizzamento nei Modelli Linguistici tramite Codifica Posizionale Equivariante Contestualizzata
Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding
January 1, 2025
Autori: Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang
cs.AI
Abstract
I Transformers si basano su meccanismi di indirizzamento basati sia sui contenuti che sulla posizione per effettuare previsioni, ma le attuali tecniche di codifica posizionale spesso riducono l'efficacia dell'indirizzamento basato sulla posizione. Molti metodi attuali impongono schemi rigidi nelle mappe di attenzione, limitando la capacità di modellare dipendenze a lungo raggio e di adattarsi a compiti diversi. Inoltre, la maggior parte delle codifiche posizionali viene appresa come bias generali, mancando della specializzazione necessaria per diverse istanze all'interno di un dataset. Per affrontare questo problema, proponiamo l'Embedding Posizionale Equivariante Contestualizzato (TAPE), un nuovo framework che potenzia le codifiche posizionali incorporando contenuti sequenziali attraverso i livelli. TAPE introduce codifiche posizionali dinamiche e consapevoli del contesto, superando i vincoli dei tradizionali schemi fissi. Applicando l'equivarianza permutativa e ortogonale, TAPE garantisce la stabilità delle codifiche posizionali durante gli aggiornamenti, migliorandone la robustezza e l'adattabilità. Il nostro metodo può essere facilmente integrato nei transformer pre-addestrati, offrendo un fine-tuning efficiente dei parametri con un overhead minimo. Esperimenti estesi dimostrano che TAPE raggiunge prestazioni superiori nel language modeling, nel ragionamento aritmetico e nei compiti di recupero di contesti lunghi rispetto alle tecniche di embedding posizionale esistenti.
English
Transformers rely on both content-based and position-based addressing
mechanisms to make predictions, but existing positional encoding techniques
often diminish the effectiveness of position-based addressing. Many current
methods enforce rigid patterns in attention maps, limiting the ability to model
long-range dependencies and adapt to diverse tasks. Additionally, most
positional encodings are learned as general biases, lacking the specialization
required for different instances within a dataset. To address this, we propose
conTextualized equivariAnt Position
Embedding (TAPE), a novel framework that enhances
positional embeddings by incorporating sequence content across layers. TAPE
introduces dynamic, context-aware positional encodings, overcoming the
constraints of traditional fixed patterns. By enforcing permutation and
orthogonal equivariance, TAPE ensures the stability of positional encodings
during updates, improving robustness and adaptability. Our method can be easily
integrated into pre-trained transformers, offering parameter-efficient
fine-tuning with minimal overhead. Extensive experiments shows that TAPE
achieves superior performance in language modeling, arithmetic reasoning, and
long-context retrieval tasks compared to existing positional embedding
techniques.Summary
AI-Generated Summary