Una soluzione miracolosa o un compromesso per l'attenzione completa? Uno studio completo sulla compressione del contesto basata su token di Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
December 23, 2024
Autori: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou
cs.AI
Abstract
In questo lavoro, forniamo un'approfondita indagine sui metodi di compressione del contesto basati sull'essenza per migliorare l'elaborazione di contesti lunghi nei grandi modelli linguistici. Ci concentriamo su due domande chiave: (1) In che misura questi metodi possono sostituire i modelli a attenzione completa? e (2) Quali possibili modelli di fallimento emergono a causa della compressione? Attraverso estesi esperimenti, mostriamo che mentre la compressione basata sull'essenza può raggiungere prestazioni quasi senza perdite in compiti come la generazione potenziata dalla ricerca e la QA di documenti lunghi, affronta sfide in compiti come il richiamo sintetico. Inoltre, identifichiamo tre modelli chiave di fallimento: perso dal confine, perso se sorpresa e perso lungo il percorso. Per mitigare questi problemi, proponiamo due strategie efficaci: autoencoding dettagliato, che migliora la ricostruzione delle informazioni originali del token, e stima dell'importanza del token a livello di segmento, che regola l'ottimizzazione in base alle dipendenze dei token. Il nostro lavoro fornisce preziose intuizioni per la comprensione della compressione del contesto basata sul token di essenza e offre strategie pratiche per migliorare le capacità di compressione.
English
In this work, we provide a thorough investigation of gist-based context
compression methods to improve long-context processing in large language
models. We focus on two key questions: (1) How well can these methods replace
full attention models? and (2) What potential failure patterns arise due to
compression? Through extensive experiments, we show that while gist-based
compression can achieve near-lossless performance on tasks like
retrieval-augmented generation and long-document QA, it faces challenges in
tasks like synthetic recall. Furthermore, we identify three key failure
patterns: lost by the boundary, lost if surprise, and lost along the way. To
mitigate these issues, we propose two effective strategies: fine-grained
autoencoding, which enhances the reconstruction of original token information,
and segment-wise token importance estimation, which adjusts optimization based
on token dependencies. Our work provides valuable insights into the
understanding of gist token-based context compression and offers practical
strategies for improving compression capabilities.Summary
AI-Generated Summary