Waarde Restleren voor het Verminderen van Aandachtsconcentratie in Transformers
Value Residual Learning For Alleviating Attention Concentration In Transformers
October 23, 2024
Auteurs: Zhanchao Zhou, Tianyi Wu, Zhiyun Jiang, Zhenzhong Lan
cs.AI
Samenvatting
Transformers kunnen langeafhankelijkheden vastleggen met behulp van zelfaandacht, waardoor tokens rechtstreeks naar alle anderen kunnen kijken. Het stapelen van meerdere aandachtlagen leidt echter tot aandachtsconcentratie. Een natuurlijke manier om dit probleem aan te pakken, is door cross-layer aandacht te gebruiken, waardoor informatie uit eerdere lagen direct toegankelijk is voor latere lagen. Deze benadering is echter rekenkundig duur. Om dit probleem aan te pakken, stellen we Transformer met restwaarde (ResFormer) voor, die cross-layer aandacht benadert door een restverbinding toe te voegen van de waarden van de eerste laag naar alle daaropvolgende lagen. Op basis van deze methode is een variant de Transformer met enkele laagwaarde (SVFormer), waarbij alle lagen dezelfde waarde-embedding delen vanuit de eerste laag, waardoor de KV-cache met bijna 50% wordt verminderd. Uitgebreid empirisch bewijs toont aan dat ResFormer het probleem van aandachtsconcentratie in diepere lagen vermindert en de representatie over de meeste lagen verbetert, waarbij het beter presteert dan de standaard Transformer, DenseFormer en NeuTRENO wat betreft trainingsfouten en downstreamtaken. SVFormer traint aanzienlijk sneller dan de standaard Transformer en presteert beter dan andere methoden zoals GQA en CLA, waarbij de prestaties worden beïnvloed door de sequentielengte en de cumulatieve leersnelheid.
English
Transformers can capture long-range dependencies using self-attention,
allowing tokens to attend to all others directly. However, stacking multiple
attention layers leads to attention concentration. One natural way to address
this issue is to use cross-layer attention, allowing information from earlier
layers to be directly accessible to later layers. However, this approach is
computationally expensive. To address this problem, we propose Transformer with
residual value (ResFormer) which approximates cross-layer attention through
adding a residual connection from the values of the the first layer to all
subsequent layers. Based on this method, one variant is the Transformer with
single layer value (SVFormer), where all layers share the same value embedding
from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical
evidence demonstrates that ResFormer mitigates attention concentration problem
in deeper layers and enhances representation across most layers, outperforming
the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as
downstream tasks. SVFormer trains significantly faster than the vanilla
Transformer and performs better than other methods like GQA and CLA, with
performance influenced by sequence length and cumulative learning rate.Summary
AI-Generated Summary