LogQuant: Quantizzazione a 2 bit con distribuzione logaritmica della cache KV per una conservazione superiore dell'accuratezza

Abstract

Presentiamo LogQuant, una tecnica rivoluzionaria di quantizzazione a 2 bit per la KV Cache nell'inferenza di modelli linguistici di grandi dimensioni (LLM), che offre un notevole risparmio di memoria mantenendo prestazioni superiori. I metodi precedenti presuppongono che i token successivi siano più importanti o tentano di prevedere i token rilevanti basandosi sui modelli di attenzione precedenti. Entrambi gli approcci, tuttavia, possono portare a colli di bottiglia nelle prestazioni o a frequenti errori di previsione. LogQuant adotta un approccio diverso. Applicando un meccanismo di filtraggio basato su logaritmi, comprime selettivamente la KV Cache in tutto il contesto, ottenendo prestazioni migliori con lo stesso o addirittura un ridotto utilizzo di memoria rispetto ai metodi esistenti. Nei test di benchmark, aumenta il throughput del 25% e incrementa la dimensione del batch del 60% senza aumentare il consumo di memoria. Per compiti complessi come il completamento di problemi matematici o di codice, LogQuant migliora l'accuratezza dal 40% al 200% allo stesso rapporto di compressione, superando le tecniche comparabili. LogQuant si integra facilmente con framework di inferenza popolari come la libreria transformers di Python. L'implementazione è disponibile su https://github.com/Concyclics/LogQuantKV.

English

We introduce LogQuant, a groundbreaking 2-bit quantization technique for KV Cache in large language model (LLM) inference, delivering substantial memory savings while preserving superior performance. Previous methods either assume that later tokens are more important or attempt to predict important tokens based on earlier attention patterns. Both approaches, however, can result in performance bottlenecks or frequent mispredictions. LogQuant takes a different approach. By applying a log-based filtering mechanism, it selectively compresses the KV Cache across the entire context, achieving better performance with the same or even reduced memory footprint compared to existing methods. In benchmark tests, it enhances throughput by 25% and boosts batch size by 60% without increasing memory consumption. For challenging tasks such as Math and Code Completion, LogQuant improves accuracy by 40% to 200% at the same compression ratio, outperforming comparable techniques.LogQuant integrates effortlessly with popular inference frameworks like Python's transformers library. Implementation can be available in https://github.com/Concyclics/LogQuantKV.

LogQuant: Quantizzazione a 2 bit con distribuzione logaritmica della cache KV per una conservazione superiore dell'accuratezza

LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation

Abstract

Summary

Support

Support