Uma Solução Milagrosa ou um Compromisso para Atenção Total? Um Estudo Abrangente sobre Compressão de Contexto Baseada em Tokens Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
December 23, 2024
Autores: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou
cs.AI
Resumo
Neste trabalho, fornecemos uma investigação detalhada dos métodos de compressão de contexto baseados em essência para melhorar o processamento de longo contexto em grandes modelos de linguagem. Focamos em duas questões-chave: (1) Quão bem esses métodos podem substituir modelos de atenção completos? e (2) Quais padrões potenciais de falha surgem devido à compressão? Através de experimentos extensivos, demonstramos que, embora a compressão baseada em essência possa alcançar desempenho quase sem perdas em tarefas como geração com recuperação aumentada e QA de documentos longos, ela enfrenta desafios em tarefas como recall sintético. Além disso, identificamos três padrões-chave de falha: perdido pela fronteira, perdido se surpresa e perdido ao longo do caminho. Para mitigar esses problemas, propomos duas estratégias eficazes: autoencodificação refinada, que aprimora a reconstrução das informações originais dos tokens, e estimativa de importância de token por segmento, que ajusta a otimização com base nas dependências dos tokens. Nosso trabalho fornece insights valiosos para a compreensão da compressão de contexto baseada em essência e oferece estratégias práticas para melhorar as capacidades de compressão.
English
In this work, we provide a thorough investigation of gist-based context
compression methods to improve long-context processing in large language
models. We focus on two key questions: (1) How well can these methods replace
full attention models? and (2) What potential failure patterns arise due to
compression? Through extensive experiments, we show that while gist-based
compression can achieve near-lossless performance on tasks like
retrieval-augmented generation and long-document QA, it faces challenges in
tasks like synthetic recall. Furthermore, we identify three key failure
patterns: lost by the boundary, lost if surprise, and lost along the way. To
mitigate these issues, we propose two effective strategies: fine-grained
autoencoding, which enhances the reconstruction of original token information,
and segment-wise token importance estimation, which adjusts optimization based
on token dependencies. Our work provides valuable insights into the
understanding of gist token-based context compression and offers practical
strategies for improving compression capabilities.Summary
AI-Generated Summary