Über RAG hinaus: Aufgabenorientierte KV-Cache-Kompression für umfassendes Wissensschließen
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning
March 6, 2025
Autoren: Giulio Corallo, Orion Weller, Fabio Petroni, Paolo Papotti
cs.AI
Zusammenfassung
Die Einbindung von externem Wissen in große Sprachmodelle (LLMs) verbessert deren Nutzen in vielfältigen Anwendungen, doch bestehende Methoden weisen Kompromisse auf. Retrieval-Augmented Generation (RAG) ruft Beweise durch Ähnlichkeitssuche ab, doch wichtige Informationen können außerhalb der bestplatzierten Ergebnisse liegen. Langkontextmodelle können mehrere Dokumente verarbeiten, sind jedoch rechenintensiv und durch die Größe des Kontextfensters begrenzt. Inspiriert von Studierenden, die Lernmaterial für Open-Book-Prüfungen verdichten, schlagen wir eine aufgabenbewusste Key-Value (KV)-Cache-Kompression vor, die externes Wissen in einem Zero- oder Few-Shot-Setup komprimiert. Dies ermöglicht es LLMs, effizient über eine komprimierte Darstellung aller relevanten Informationen zu schlussfolgern. Experimente zeigen, dass unser Ansatz sowohl RAG als auch aufgabenunabhängige Kompressionsmethoden übertrifft. Auf LongBench v2 verbessert es die Genauigkeit um bis zu 7 absolute Punkte gegenüber RAG bei einer 30-fachen Kompressionsrate und reduziert die Inferenzlatenz von 0,43s auf 0,16s. Ein synthetischer Datensatz verdeutlicht, dass RAG gut abschneidet, wenn spärliche Beweise ausreichen, während aufgabenbewusste Kompression für breite Wissensaufgaben überlegen ist.
English
Incorporating external knowledge in large language models (LLMs) enhances
their utility across diverse applications, but existing methods have
trade-offs. Retrieval-Augmented Generation (RAG) fetches evidence via
similarity search, but key information may fall outside top ranked results.
Long-context models can process multiple documents but are computationally
expensive and limited by context window size. Inspired by students condensing
study material for open-book exams, we propose task-aware key-value (KV) cache
compression, which compresses external knowledge in a zero- or few-shot setup.
This enables LLMs to reason efficiently over a compacted representation of all
relevant information. Experiments show our approach outperforms both RAG and
task-agnostic compression methods. On LongBench v2, it improves accuracy by up
to 7 absolute points over RAG with a 30x compression rate, while reducing
inference latency from 0.43s to 0.16s. A synthetic dataset highlights that RAG
performs well when sparse evidence suffices, whereas task-aware compression is
superior for broad knowledge tasks.Summary
AI-Generated Summary