ZipVL: Efficiënte grote visie-taalmodellen met dynamische token-sparseeractie en KV-cachecompressie.
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression
October 11, 2024
Auteurs: Yefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Samenvatting
De efficiëntie van grote visie-taalmodellen (LVLM's) wordt beperkt door de computationele bottleneck van het aandachtsmechanisme tijdens de voorvul fase en de geheugenbottleneck van het ophalen van de sleutel-waarde (KV) cache in de decoderingsfase, met name in scenario's met hoge-resolutie afbeeldingen of video's. Visuele inhoud vertoont vaak aanzienlijke redundantie, resulterend in zeer spaarzame aandachtskaarten binnen LVLM's. Deze spaarzaamheid kan worden benut om aandachtsberekeningen te versnellen of de KV-cache te comprimeren via verschillende benaderingen. De meeste studies richten zich echter alleen op het aanpakken van een van deze bottlenecks en ondersteunen niet adequaat de dynamische aanpassing van spaarzaamheid met betrekking tot verschillende lagen of taken. In dit artikel presenteren we ZipVL, een efficiënt inferentiekader ontworpen voor LVLM's dat zowel de computationele als geheugenbottlenecks oplost door middel van een dynamische verhoudingsallocatiestrategie van belangrijke tokens. Deze verhouding wordt adaptief bepaald op basis van de laagspecifieke verdeling van aandachtsscores, in plaats van vaste hyperparameters, waardoor de efficiëntie wordt verbeterd voor minder complexe taken terwijl de prestaties hoog blijven voor meer uitdagende taken. Vervolgens selecteren we belangrijke tokens op basis van hun genormaliseerde aandachtsscores en voeren we het aandachtsmechanisme uitsluitend uit op die belangrijke tokens om de voorvul fase te versnellen. Om de geheugenbottleneck in de decoderingsfase te verminderen, passen we gemengde precisiequantisering toe op de KV-cache, waarbij hoge-bit quantisering wordt gebruikt voor caches van belangrijke tokens, terwijl lage-bit quantisering wordt toegepast op die van minder belang. Onze experimenten tonen aan dat ZipVL de voorvul fase kan versnellen met 2,6 keer en het GPU-geheugengebruik met 50,0% kan verminderen, met een minimale nauwkeurigheidsvermindering van slechts 0,2% op de Video-MME benchmark ten opzichte van het LongVA-7B model, waardoor de generatie-efficiëntie van LVLM's effectief wordt verbeterd.
English
The efficiency of large vision-language models (LVLMs) is constrained by the
computational bottleneck of the attention mechanism during the prefill phase
and the memory bottleneck of fetching the key-value (KV) cache in the decoding
phase, particularly in scenarios involving high-resolution images or videos.
Visual content often exhibits substantial redundancy, resulting in highly
sparse attention maps within LVLMs. This sparsity can be leveraged to
accelerate attention computation or compress the KV cache through various
approaches. However, most studies focus on addressing only one of these
bottlenecks and do not adequately support dynamic adjustment of sparsity
concerning distinct layers or tasks. In this paper, we present ZipVL, an
efficient inference framework designed for LVLMs that resolves both computation
and memory bottlenecks through a dynamic ratio allocation strategy of important
tokens. This ratio is adaptively determined based on the layer-specific
distribution of attention scores, rather than fixed hyper-parameters, thereby
improving efficiency for less complex tasks while maintaining high performance
for more challenging ones. Then we select important tokens based on their
normalized attention scores and perform attention mechanism solely on those
important tokens to accelerate the prefill phase. To mitigate the memory
bottleneck in the decoding phase, we employ mixed-precision quantization to the
KV cache, where high-bit quantization is used for caches of important tokens,
while low-bit quantization is applied to those of less importance. Our
experiments demonstrate that ZipVL can accelerate the prefill phase by
2.6times and reduce GPU memory usage by 50.0%, with a minimal accuracy
reduction of only 0.2% on Video-MME benchmark over LongVA-7B model, effectively
enhancing the generation efficiency of LVLMs.Summary
AI-Generated Summary