Un'Analisi Raffinata delle Attivazioni Massive nei Modelli Linguistici di Grande Dimensione
A Refined Analysis of Massive Activations in LLMs
March 28, 2025
Autori: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra
cs.AI
Abstract
Motivati in parte dalla loro rilevanza per l'addestramento a bassa precisione e la quantizzazione, le attivazioni massive nei grandi modelli linguistici (LLM) sono recentemente emerse come un argomento di interesse. Tuttavia, le analisi esistenti sono limitate nell'ambito e la generalizzabilità tra le architetture non è chiara. Questo articolo contribuisce a colmare alcune di queste lacune conducendo un'analisi delle attivazioni massive su un'ampia gamma di LLM, includendo sia architetture basate su GLU che non basate su GLU. Le nostre scoperte mettono in discussione diverse ipotesi precedenti, in particolare: (1) non tutte le attivazioni massive sono dannose, ovvero sopprimerle non porta a un'esplosione della perplessità o a un crollo delle prestazioni nei task downstream; (2) le strategie di mitigazione proposte, come il bias Attention KV, sono specifiche per il modello e inefficaci in alcuni casi. Di conseguenza, indaghiamo nuove strategie di mitigazione ibride; in particolare, l'abbinamento di Target Variance Rescaling (TVR) con Attention KV bias o Dynamic Tanh (DyT) bilancia con successo la mitigazione delle attivazioni massive con il mantenimento delle prestazioni del modello downstream negli scenari che abbiamo esaminato. Il nostro codice è disponibile all'indirizzo: https://github.com/bluorion-com/refine_massive_activations.
English
Motivated in part by their relevance for low-precision training and
quantization, massive activations in large language models (LLMs) have recently
emerged as a topic of interest. However, existing analyses are limited in
scope, and generalizability across architectures is unclear. This paper helps
address some of these gaps by conducting an analysis of massive activations
across a broad range of LLMs, including both GLU-based and non-GLU-based
architectures. Our findings challenge several prior assumptions, most
importantly: (1) not all massive activations are detrimental, i.e. suppressing
them does not lead to an explosion of perplexity or a collapse in downstream
task performance; (2) proposed mitigation strategies such as Attention KV bias
are model-specific and ineffective in certain cases. We consequently
investigate novel hybrid mitigation strategies; in particular pairing Target
Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT)
successfully balances the mitigation of massive activations with preserved
downstream model performance in the scenarios we investigated. Our code is
available at: https://github.com/bluorion-com/refine_massive_activations.Summary
AI-Generated Summary