SepLLM: Accelerare i Grandi Modelli Linguistici Comprimendo un Segmento in un Separatore
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
December 16, 2024
Autori: Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang
cs.AI
Abstract
I Large Language Models (LLM) hanno mostrato prestazioni eccezionali in una vasta gamma di compiti di elaborazione del linguaggio naturale. Tuttavia, le loro dimensioni sostanziali presentano notevoli sfide, in particolare in termini di richieste computazionali e velocità di inferenza, a causa della loro complessità quadratica. In questo lavoro, abbiamo identificato un modello chiave: certi token speciali apparentemente privi di significato (cioè, separatori) contribuiscono in modo sproporzionato ai punteggi di attenzione rispetto ai token semanticamente significativi. Questa osservazione suggerisce che le informazioni dei segmenti tra questi token separatori possono essere efficacemente condensate nei token separatori stessi senza una significativa perdita di informazioni. Guidati da questa intuizione, introduciamo SepLLM, un framework plug-and-play che accelera l'inferenza comprimendo questi segmenti ed eliminando i token ridondanti. Inoltre, implementiamo kernel efficienti per l'accelerazione dell'addestramento. I risultati sperimentali attraverso impostazioni senza addestramento, addestramento da zero e impostazioni post-addestramento dimostrano l'efficacia di SepLLM. In particolare, utilizzando il backbone Llama-3-8B, SepLLM raggiunge una riduzione di oltre il 50% nella cache KV nel benchmark GSM8K-CoT mantenendo prestazioni comparabili. Inoltre, in impostazioni di streaming, SepLLM elabora efficacemente sequenze fino a 4 milioni di token o più mantenendo capacità di modellazione del linguaggio coerenti.
English
Large Language Models (LLMs) have exhibited exceptional performance across a
spectrum of natural language processing tasks. However, their substantial sizes
pose considerable challenges, particularly in computational demands and
inference speed, due to their quadratic complexity. In this work, we have
identified a key pattern: certain seemingly meaningless special tokens (i.e.,
separators) contribute disproportionately to attention scores compared to
semantically meaningful tokens. This observation suggests that information of
the segments between these separator tokens can be effectively condensed into
the separator tokens themselves without significant information loss. Guided by
this insight, we introduce SepLLM, a plug-and-play framework that accelerates
inference by compressing these segments and eliminating redundant tokens.
Additionally, we implement efficient kernels for training acceleration.
Experimental results across training-free, training-from-scratch, and
post-training settings demonstrate SepLLM's effectiveness. Notably, using the
Llama-3-8B backbone, SepLLM achieves over 50% reduction in KV cache on the
GSM8K-CoT benchmark while maintaining comparable performance. Furthermore, in
streaming settings, SepLLM effectively processes sequences of up to 4 million
tokens or more while maintaining consistent language modeling capabilities.Summary
AI-Generated Summary