ZipVL: Efficiënte grote visie-taalmodellen met dynamische token-sparseeractie en KV-cachecompressie.

ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

October 11, 2024
Auteurs: Yefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI

Samenvatting

De efficiëntie van grote visie-taalmodellen (LVLM's) wordt beperkt door de computationele bottleneck van het aandachtsmechanisme tijdens de voorvul fase en de geheugenbottleneck van het ophalen van de sleutel-waarde (KV) cache in de decoderingsfase, met name in scenario's met hoge-resolutie afbeeldingen of video's. Visuele inhoud vertoont vaak aanzienlijke redundantie, resulterend in zeer spaarzame aandachtskaarten binnen LVLM's. Deze spaarzaamheid kan worden benut om aandachtsberekeningen te versnellen of de KV-cache te comprimeren via verschillende benaderingen. De meeste studies richten zich echter alleen op het aanpakken van een van deze bottlenecks en ondersteunen niet adequaat de dynamische aanpassing van spaarzaamheid met betrekking tot verschillende lagen of taken. In dit artikel presenteren we ZipVL, een efficiënt inferentiekader ontworpen voor LVLM's dat zowel de computationele als geheugenbottlenecks oplost door middel van een dynamische verhoudingsallocatiestrategie van belangrijke tokens. Deze verhouding wordt adaptief bepaald op basis van de laagspecifieke verdeling van aandachtsscores, in plaats van vaste hyperparameters, waardoor de efficiëntie wordt verbeterd voor minder complexe taken terwijl de prestaties hoog blijven voor meer uitdagende taken. Vervolgens selecteren we belangrijke tokens op basis van hun genormaliseerde aandachtsscores en voeren we het aandachtsmechanisme uitsluitend uit op die belangrijke tokens om de voorvul fase te versnellen. Om de geheugenbottleneck in de decoderingsfase te verminderen, passen we gemengde precisiequantisering toe op de KV-cache, waarbij hoge-bit quantisering wordt gebruikt voor caches van belangrijke tokens, terwijl lage-bit quantisering wordt toegepast op die van minder belang. Onze experimenten tonen aan dat ZipVL de voorvul fase kan versnellen met 2,6 keer en het GPU-geheugengebruik met 50,0% kan verminderen, met een minimale nauwkeurigheidsvermindering van slechts 0,2% op de Video-MME benchmark ten opzichte van het LongVA-7B model, waardoor de generatie-efficiëntie van LVLM's effectief wordt verbeterd.
English
The efficiency of large vision-language models (LVLMs) is constrained by the computational bottleneck of the attention mechanism during the prefill phase and the memory bottleneck of fetching the key-value (KV) cache in the decoding phase, particularly in scenarios involving high-resolution images or videos. Visual content often exhibits substantial redundancy, resulting in highly sparse attention maps within LVLMs. This sparsity can be leveraged to accelerate attention computation or compress the KV cache through various approaches. However, most studies focus on addressing only one of these bottlenecks and do not adequately support dynamic adjustment of sparsity concerning distinct layers or tasks. In this paper, we present ZipVL, an efficient inference framework designed for LVLMs that resolves both computation and memory bottlenecks through a dynamic ratio allocation strategy of important tokens. This ratio is adaptively determined based on the layer-specific distribution of attention scores, rather than fixed hyper-parameters, thereby improving efficiency for less complex tasks while maintaining high performance for more challenging ones. Then we select important tokens based on their normalized attention scores and perform attention mechanism solely on those important tokens to accelerate the prefill phase. To mitigate the memory bottleneck in the decoding phase, we employ mixed-precision quantization to the KV cache, where high-bit quantization is used for caches of important tokens, while low-bit quantization is applied to those of less importance. Our experiments demonstrate that ZipVL can accelerate the prefill phase by 2.6times and reduce GPU memory usage by 50.0%, with a minimal accuracy reduction of only 0.2% on Video-MME benchmark over LongVA-7B model, effectively enhancing the generation efficiency of LVLMs.

Summary

AI-Generated Summary

PDF113November 16, 2024