Wertvolles Restlernen zur Linderung von Aufmerksamkeitskonzentration in Transformern

Zusammenfassung

Transformer können mit Selbst-Aufmerksamkeit langreichweitige Abhängigkeiten erfassen, wodurch Tokens direkt auf alle anderen zugreifen können. Das Stapeln mehrerer Aufmerksamkeitsschichten führt jedoch zu Aufmerksamkeitskonzentration. Ein natürlicher Ansatz, um dieses Problem zu lösen, ist die Verwendung von Kreuzschicht-Aufmerksamkeit, die es ermöglicht, dass Informationen aus früheren Schichten direkt von späteren Schichten abgerufen werden können. Allerdings ist dieser Ansatz rechenaufwendig. Um dieses Problem zu lösen, schlagen wir den Transformer mit Restwert (ResFormer) vor, der die Kreuzschicht-Aufmerksamkeit durch das Hinzufügen einer Restverbindung von den Werten der ersten Schicht zu allen nachfolgenden Schichten approximiert. Basierend auf dieser Methode ist eine Variante der Transformer mit einzelner Schichtwert (SVFormer), bei der alle Schichten die gleiche Wert-Einbettung der ersten Schicht teilen, wodurch der KV-Cache um fast 50% reduziert wird. Umfassende empirische Beweise zeigen, dass ResFormer das Problem der Aufmerksamkeitskonzentration in tieferen Schichten mildert und die Repräsentation über die meisten Schichten verbessert, wobei es den herkömmlichen Transformer, DenseFormer und NeuTRENO sowohl im Trainingsfehler als auch in nachgelagerten Aufgaben übertrifft. SVFormer trainiert signifikant schneller als der herkömmliche Transformer und ist besser als andere Methoden wie GQA und CLA, wobei die Leistung von der Sequenzlänge und der kumulativen Lernrate beeinflusst wird.

English

Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical evidence demonstrates that ResFormer mitigates attention concentration problem in deeper layers and enhances representation across most layers, outperforming the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as downstream tasks. SVFormer trains significantly faster than the vanilla Transformer and performs better than other methods like GQA and CLA, with performance influenced by sequence length and cumulative learning rate.

Wertvolles Restlernen zur Linderung von Aufmerksamkeitskonzentration in Transformern

Value Residual Learning For Alleviating Attention Concentration In Transformers

Zusammenfassung

Support