Wertvolles Restlernen zur Linderung von Aufmerksamkeitskonzentration in Transformern
Value Residual Learning For Alleviating Attention Concentration In Transformers
October 23, 2024
Autoren: Zhanchao Zhou, Tianyi Wu, Zhiyun Jiang, Zhenzhong Lan
cs.AI
Zusammenfassung
Transformer können mit Selbst-Aufmerksamkeit langreichweitige Abhängigkeiten erfassen, wodurch Tokens direkt auf alle anderen zugreifen können. Das Stapeln mehrerer Aufmerksamkeitsschichten führt jedoch zu Aufmerksamkeitskonzentration. Ein natürlicher Ansatz, um dieses Problem zu lösen, ist die Verwendung von Kreuzschicht-Aufmerksamkeit, die es ermöglicht, dass Informationen aus früheren Schichten direkt von späteren Schichten abgerufen werden können. Allerdings ist dieser Ansatz rechenaufwendig. Um dieses Problem zu lösen, schlagen wir den Transformer mit Restwert (ResFormer) vor, der die Kreuzschicht-Aufmerksamkeit durch das Hinzufügen einer Restverbindung von den Werten der ersten Schicht zu allen nachfolgenden Schichten approximiert. Basierend auf dieser Methode ist eine Variante der Transformer mit einzelner Schichtwert (SVFormer), bei der alle Schichten die gleiche Wert-Einbettung der ersten Schicht teilen, wodurch der KV-Cache um fast 50% reduziert wird. Umfassende empirische Beweise zeigen, dass ResFormer das Problem der Aufmerksamkeitskonzentration in tieferen Schichten mildert und die Repräsentation über die meisten Schichten verbessert, wobei es den herkömmlichen Transformer, DenseFormer und NeuTRENO sowohl im Trainingsfehler als auch in nachgelagerten Aufgaben übertrifft. SVFormer trainiert signifikant schneller als der herkömmliche Transformer und ist besser als andere Methoden wie GQA und CLA, wobei die Leistung von der Sequenzlänge und der kumulativen Lernrate beeinflusst wird.
English
Transformers can capture long-range dependencies using self-attention,
allowing tokens to attend to all others directly. However, stacking multiple
attention layers leads to attention concentration. One natural way to address
this issue is to use cross-layer attention, allowing information from earlier
layers to be directly accessible to later layers. However, this approach is
computationally expensive. To address this problem, we propose Transformer with
residual value (ResFormer) which approximates cross-layer attention through
adding a residual connection from the values of the the first layer to all
subsequent layers. Based on this method, one variant is the Transformer with
single layer value (SVFormer), where all layers share the same value embedding
from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical
evidence demonstrates that ResFormer mitigates attention concentration problem
in deeper layers and enhances representation across most layers, outperforming
the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as
downstream tasks. SVFormer trains significantly faster than the vanilla
Transformer and performs better than other methods like GQA and CLA, with
performance influenced by sequence length and cumulative learning rate.Summary
AI-Generated Summary