LogQuant: Quantizzazione a 2 bit con distribuzione logaritmica della cache KV per una conservazione superiore dell'accuratezza
LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation
March 25, 2025
Autori: Han Chen, Zicong Jiang, Zining Zhang, Bingsheng He, Pingyi Luo, Mian Lu, Yuqiang Chen
cs.AI
Abstract
Presentiamo LogQuant, una tecnica rivoluzionaria di quantizzazione a 2 bit per la KV Cache nell'inferenza di modelli linguistici di grandi dimensioni (LLM), che offre un notevole risparmio di memoria mantenendo prestazioni superiori. I metodi precedenti presuppongono che i token successivi siano più importanti o tentano di prevedere i token rilevanti basandosi sui modelli di attenzione precedenti. Entrambi gli approcci, tuttavia, possono portare a colli di bottiglia nelle prestazioni o a frequenti errori di previsione.
LogQuant adotta un approccio diverso. Applicando un meccanismo di filtraggio basato su logaritmi, comprime selettivamente la KV Cache in tutto il contesto, ottenendo prestazioni migliori con lo stesso o addirittura un ridotto utilizzo di memoria rispetto ai metodi esistenti. Nei test di benchmark, aumenta il throughput del 25% e incrementa la dimensione del batch del 60% senza aumentare il consumo di memoria. Per compiti complessi come il completamento di problemi matematici o di codice, LogQuant migliora l'accuratezza dal 40% al 200% allo stesso rapporto di compressione, superando le tecniche comparabili.
LogQuant si integra facilmente con framework di inferenza popolari come la libreria transformers di Python. L'implementazione è disponibile su https://github.com/Concyclics/LogQuantKV.
English
We introduce LogQuant, a groundbreaking 2-bit quantization technique for KV
Cache in large language model (LLM) inference, delivering substantial memory
savings while preserving superior performance. Previous methods either assume
that later tokens are more important or attempt to predict important tokens
based on earlier attention patterns. Both approaches, however, can result in
performance bottlenecks or frequent mispredictions.
LogQuant takes a different approach. By applying a log-based filtering
mechanism, it selectively compresses the KV Cache across the entire context,
achieving better performance with the same or even reduced memory footprint
compared to existing methods. In benchmark tests, it enhances throughput by 25%
and boosts batch size by 60% without increasing memory consumption. For
challenging tasks such as Math and Code Completion, LogQuant improves accuracy
by 40% to 200% at the same compression ratio, outperforming comparable
techniques.LogQuant integrates effortlessly with popular inference frameworks
like Python's transformers library. Implementation can be available in
https://github.com/Concyclics/LogQuantKV.Summary
AI-Generated Summary