Apprentissage résiduel de la valeur pour atténuer la concentration de l'attention dans les transformeurs

Résumé

Les Transformers peuvent capturer les dépendances à longue distance en utilisant l'auto-attention, permettant aux jetons d'assister directement à tous les autres. Cependant, empiler plusieurs couches d'attention conduit à une concentration de l'attention. Une façon naturelle de résoudre ce problème est d'utiliser une attention entre les couches, permettant aux informations des couches antérieures d'être directement accessibles aux couches ultérieures. Cependant, cette approche est coûteuse en termes de calcul. Pour résoudre ce problème, nous proposons le Transformer avec une valeur résiduelle (ResFormer) qui approxime l'attention entre les couches en ajoutant une connexion résiduelle des valeurs de la première couche à toutes les couches suivantes. Sur la base de cette méthode, une variante est le Transformer avec une seule couche de valeur (SVFormer), où toutes les couches partagent le même plongement de valeur de la première couche, réduisant le cache KV de près de 50%. Des preuves empiriques complètes démontrent que ResFormer atténue le problème de concentration de l'attention dans les couches plus profondes et améliore la représentation à travers la plupart des couches, surpassant le Transformer classique, DenseFormer et NeuTRENO en termes d'erreur d'entraînement ainsi que de tâches ultérieures. SVFormer s'entraîne significativement plus rapidement que le Transformer classique et performe mieux que d'autres méthodes comme GQA et CLA, la performance étant influencée par la longueur de la séquence et le taux d'apprentissage cumulatif.

English

Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical evidence demonstrates that ResFormer mitigates attention concentration problem in deeper layers and enhances representation across most layers, outperforming the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as downstream tasks. SVFormer trains significantly faster than the vanilla Transformer and performs better than other methods like GQA and CLA, with performance influenced by sequence length and cumulative learning rate.

Apprentissage résiduel de la valeur pour atténuer la concentration de l'attention dans les transformeurs

Value Residual Learning For Alleviating Attention Concentration In Transformers

Résumé

Support