Wat is belangrijk in Transformers? Niet alle aandacht is nodig.

Samenvatting

Hoewel het opschalen van op Transformer gebaseerde grote taalmodellen (LLM's) veelbelovende prestaties heeft laten zien bij verschillende taken, introduceert het ook overbodige architecturen, wat efficiëntie-uitdagingen met zich meebrengt voor implementatie in de echte wereld. Ondanks enige erkenning van redundantie in LLM's, is de variabiliteit van redundantie over verschillende architecturen in transformers, zoals MLP en Aandachtslagen, onderbelicht. In dit werk onderzoeken we redundantie over verschillende modules binnen Transformers, waaronder Blokken, MLP en Aandachtslagen, met behulp van een op gelijkenis gebaseerde metriek. Verrassend genoeg, ondanks de cruciale rol van aandachtslagen bij het onderscheiden van transformers van andere architecturen, hebben we ontdekt dat een groot deel van deze lagen een overdreven hoge gelijkenis vertoont en kunnen worden weggesneden zonder prestatieverlies. Zo behaalde Llama-2-70B bijvoorbeeld een versnelling van 48,4% met slechts een prestatiedaling van 2,4% door de helft van de aandachtslagen weg te snijden. Bovendien hebben we door modelcontrolepunten gedurende het trainingsproces te volgen, waargenomen dat redundantie van aandachtslagen inherent is en consistent is over trainingsfasen. Daarnaast stellen we een methode voor die zowel Aandachts- als MLP-lagen gezamenlijk laat vallen, waardoor we agressiever extra lagen kunnen laten vallen. Zo behoudt Llama-2-13B bijvoorbeeld nog steeds 90% van de prestaties op de MMLU-taak bij het laten vallen van 31 lagen (Aandacht + MLP). Ons werk biedt waardevolle inzichten voor toekomstig netwerkarchitectuurontwerp. De code is beschikbaar op: https://github.com/Shwai-He/LLM-Drop.

English

While scaling Transformer-based large language models (LLMs) has demonstrated promising performance across various tasks, it also introduces redundant architectures, posing efficiency challenges for real-world deployment. Despite some recognition of redundancy in LLMs, the variability of redundancy across different architectures in transformers, such as MLP and Attention layers, is under-explored. In this work, we investigate redundancy across different modules within Transformers, including Blocks, MLP, and Attention layers, using a similarity-based metric. Surprisingly, despite the critical role of attention layers in distinguishing transformers from other architectures, we found that a large portion of these layers exhibit excessively high similarity and can be pruned without degrading performance. For instance, Llama-2-70B achieved a 48.4\% speedup with only a 2.4\% performance drop by pruning half of the attention layers. Furthermore, by tracing model checkpoints throughout the training process, we observed that attention layer redundancy is inherent and consistent across training stages. Additionally, we further propose a method that jointly drops Attention and MLP layers, allowing us to more aggressively drop additional layers. For instance, when dropping 31 layers (Attention + MLP), Llama-2-13B still retains 90\% of the performance on the MMLU task. Our work provides valuable insights for future network architecture design. The code is released at: https://github.com/Shwai-He/LLM-Drop.

Wat is belangrijk in Transformers? Niet alle aandacht is nodig.

What Matters in Transformers? Not All Attention is Needed

Samenvatting

Support