xKV: Cross-Layer-SVD zur KV-Cache-Kompression
xKV: Cross-Layer SVD for KV-Cache Compression
March 24, 2025
Autoren: Chi-Chih Chang, Chien-Yu Lin, Yash Akhauri, Wei-Cheng Lin, Kai-Chiang Wu, Luis Ceze, Mohamed S. Abdelfattah
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) mit langen Kontextfenstern ermöglichen leistungsstarke Anwendungen, gehen jedoch mit einem hohen Speicherverbrauch einher, um die Key- und Value-Zustände (KV-Cache) zu speichern. Aktuelle Studien haben versucht, den KV-Cache aus mehreren Schichten in gemeinsame Darstellungen zu integrieren, doch diese Ansätze erfordern entweder kostspieliges Vortraining oder basieren auf der Annahme einer hohen Kosinus-Ähnlichkeit pro Token über die Schichten hinweg, die in der Praxis im Allgemeinen nicht zutrifft. Wir stellen fest, dass die dominanten Singulärvektoren über mehrere Schichten des KV-Cache bemerkenswert gut ausgerichtet sind. Unter Ausnutzung dieser Erkenntnis schlagen wir xKV vor, eine einfache Methode nach dem Training, die die Singulärwertzerlegung (SVD) auf den KV-Cache gruppierter Schichten anwendet. xKV konsolidiert den KV-Cache mehrerer Schichten in einen gemeinsamen niedrigrangigen Unterraum und reduziert dadurch die Größe des KV-Cache erheblich. Durch umfangreiche Bewertungen auf dem RULER-Langkontext-Benchmark mit weit verbreiteten LLMs (z.B. Llama-3.1 und Qwen2.5) erreicht xKV bis zu 6,8x höhere Kompressionsraten als die modernste Inter-Schicht-Technik und verbessert gleichzeitig die Genauigkeit um 2,7%. Darüber hinaus ist xKV kompatibel mit der aufkommenden Multi-Head Latent Attention (MLA) (z.B. DeepSeek-Coder-V2) und erzielt eine bemerkenswerte 3x Kompressionsrate bei Codierungsaufgaben ohne Leistungseinbußen. Diese Ergebnisse unterstreichen die starke Fähigkeit und Vielseitigkeit von xKV bei der Bewältigung von Speicherengpässen für die Langkontext-Inferenz von LLMs. Unser Code ist öffentlich verfügbar unter: https://github.com/abdelfattah-lab/xKV.
English
Large Language Models (LLMs) with long context windows enable powerful
applications but come at the cost of high memory consumption to store the Key
and Value states (KV-Cache). Recent studies attempted to merge KV-cache from
multiple layers into shared representations, yet these approaches either
require expensive pretraining or rely on assumptions of high per-token cosine
similarity across layers which generally does not hold in practice. We find
that the dominant singular vectors are remarkably well-aligned across multiple
layers of the KV-Cache. Exploiting this insight, we propose xKV, a simple
post-training method that applies Singular Value Decomposition (SVD) on the
KV-Cache of grouped layers. xKV consolidates the KV-Cache of multiple layers
into a shared low-rank subspace, significantly reducing KV-Cache sizes. Through
extensive evaluations on the RULER long-context benchmark with widely-used LLMs
(e.g., Llama-3.1 and Qwen2.5), xKV achieves up to 6.8x higher compression rates
than state-of-the-art inter-layer technique while improving accuracy by 2.7%.
Moreover, xKV is compatible with the emerging Multi-Head Latent Attention (MLA)
(e.g., DeepSeek-Coder-V2), yielding a notable 3x compression rates on coding
tasks without performance degradation. These results highlight xKV's strong
capability and versatility in addressing memory bottlenecks for long-context
LLM inference. Our code is publicly available at:
https://github.com/abdelfattah-lab/xKV.Summary
AI-Generated Summary