Apprentissage résiduel de la valeur pour atténuer la concentration de l'attention dans les transformeurs
Value Residual Learning For Alleviating Attention Concentration In Transformers
October 23, 2024
Auteurs: Zhanchao Zhou, Tianyi Wu, Zhiyun Jiang, Zhenzhong Lan
cs.AI
Résumé
Les Transformers peuvent capturer les dépendances à longue distance en utilisant l'auto-attention, permettant aux jetons d'assister directement à tous les autres. Cependant, empiler plusieurs couches d'attention conduit à une concentration de l'attention. Une façon naturelle de résoudre ce problème est d'utiliser une attention entre les couches, permettant aux informations des couches antérieures d'être directement accessibles aux couches ultérieures. Cependant, cette approche est coûteuse en termes de calcul. Pour résoudre ce problème, nous proposons le Transformer avec une valeur résiduelle (ResFormer) qui approxime l'attention entre les couches en ajoutant une connexion résiduelle des valeurs de la première couche à toutes les couches suivantes. Sur la base de cette méthode, une variante est le Transformer avec une seule couche de valeur (SVFormer), où toutes les couches partagent le même plongement de valeur de la première couche, réduisant le cache KV de près de 50%. Des preuves empiriques complètes démontrent que ResFormer atténue le problème de concentration de l'attention dans les couches plus profondes et améliore la représentation à travers la plupart des couches, surpassant le Transformer classique, DenseFormer et NeuTRENO en termes d'erreur d'entraînement ainsi que de tâches ultérieures. SVFormer s'entraîne significativement plus rapidement que le Transformer classique et performe mieux que d'autres méthodes comme GQA et CLA, la performance étant influencée par la longueur de la séquence et le taux d'apprentissage cumulatif.
English
Transformers can capture long-range dependencies using self-attention,
allowing tokens to attend to all others directly. However, stacking multiple
attention layers leads to attention concentration. One natural way to address
this issue is to use cross-layer attention, allowing information from earlier
layers to be directly accessible to later layers. However, this approach is
computationally expensive. To address this problem, we propose Transformer with
residual value (ResFormer) which approximates cross-layer attention through
adding a residual connection from the values of the the first layer to all
subsequent layers. Based on this method, one variant is the Transformer with
single layer value (SVFormer), where all layers share the same value embedding
from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical
evidence demonstrates that ResFormer mitigates attention concentration problem
in deeper layers and enhances representation across most layers, outperforming
the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as
downstream tasks. SVFormer trains significantly faster than the vanilla
Transformer and performs better than other methods like GQA and CLA, with
performance influenced by sequence length and cumulative learning rate.Summary
AI-Generated Summary