ChatPaper.aiChatPaper

Un'Analisi Raffinata delle Attivazioni Massive nei Modelli Linguistici di Grande Dimensione

A Refined Analysis of Massive Activations in LLMs

March 28, 2025
Autori: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra
cs.AI

Abstract

Motivati in parte dalla loro rilevanza per l'addestramento a bassa precisione e la quantizzazione, le attivazioni massive nei grandi modelli linguistici (LLM) sono recentemente emerse come un argomento di interesse. Tuttavia, le analisi esistenti sono limitate nell'ambito e la generalizzabilità tra le architetture non è chiara. Questo articolo contribuisce a colmare alcune di queste lacune conducendo un'analisi delle attivazioni massive su un'ampia gamma di LLM, includendo sia architetture basate su GLU che non basate su GLU. Le nostre scoperte mettono in discussione diverse ipotesi precedenti, in particolare: (1) non tutte le attivazioni massive sono dannose, ovvero sopprimerle non porta a un'esplosione della perplessità o a un crollo delle prestazioni nei task downstream; (2) le strategie di mitigazione proposte, come il bias Attention KV, sono specifiche per il modello e inefficaci in alcuni casi. Di conseguenza, indaghiamo nuove strategie di mitigazione ibride; in particolare, l'abbinamento di Target Variance Rescaling (TVR) con Attention KV bias o Dynamic Tanh (DyT) bilancia con successo la mitigazione delle attivazioni massive con il mantenimento delle prestazioni del modello downstream negli scenari che abbiamo esaminato. Il nostro codice è disponibile all'indirizzo: https://github.com/bluorion-com/refine_massive_activations.
English
Motivated in part by their relevance for low-precision training and quantization, massive activations in large language models (LLMs) have recently emerged as a topic of interest. However, existing analyses are limited in scope, and generalizability across architectures is unclear. This paper helps address some of these gaps by conducting an analysis of massive activations across a broad range of LLMs, including both GLU-based and non-GLU-based architectures. Our findings challenge several prior assumptions, most importantly: (1) not all massive activations are detrimental, i.e. suppressing them does not lead to an explosion of perplexity or a collapse in downstream task performance; (2) proposed mitigation strategies such as Attention KV bias are model-specific and ineffective in certain cases. We consequently investigate novel hybrid mitigation strategies; in particular pairing Target Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT) successfully balances the mitigation of massive activations with preserved downstream model performance in the scenarios we investigated. Our code is available at: https://github.com/bluorion-com/refine_massive_activations.

Summary

AI-Generated Summary

PDF143March 31, 2025