Waarde Restleren voor het Verminderen van Aandachtsconcentratie in Transformers

Samenvatting

Transformers kunnen langeafhankelijkheden vastleggen met behulp van zelfaandacht, waardoor tokens rechtstreeks naar alle anderen kunnen kijken. Het stapelen van meerdere aandachtlagen leidt echter tot aandachtsconcentratie. Een natuurlijke manier om dit probleem aan te pakken, is door cross-layer aandacht te gebruiken, waardoor informatie uit eerdere lagen direct toegankelijk is voor latere lagen. Deze benadering is echter rekenkundig duur. Om dit probleem aan te pakken, stellen we Transformer met restwaarde (ResFormer) voor, die cross-layer aandacht benadert door een restverbinding toe te voegen van de waarden van de eerste laag naar alle daaropvolgende lagen. Op basis van deze methode is een variant de Transformer met enkele laagwaarde (SVFormer), waarbij alle lagen dezelfde waarde-embedding delen vanuit de eerste laag, waardoor de KV-cache met bijna 50% wordt verminderd. Uitgebreid empirisch bewijs toont aan dat ResFormer het probleem van aandachtsconcentratie in diepere lagen vermindert en de representatie over de meeste lagen verbetert, waarbij het beter presteert dan de standaard Transformer, DenseFormer en NeuTRENO wat betreft trainingsfouten en downstreamtaken. SVFormer traint aanzienlijk sneller dan de standaard Transformer en presteert beter dan andere methoden zoals GQA en CLA, waarbij de prestaties worden beïnvloed door de sequentielengte en de cumulatieve leersnelheid.

English

Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical evidence demonstrates that ResFormer mitigates attention concentration problem in deeper layers and enhances representation across most layers, outperforming the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as downstream tasks. SVFormer trains significantly faster than the vanilla Transformer and performs better than other methods like GQA and CLA, with performance influenced by sequence length and cumulative learning rate.

Waarde Restleren voor het Verminderen van Aandachtsconcentratie in Transformers

Value Residual Learning For Alleviating Attention Concentration In Transformers

Samenvatting

Summary

Support