VisionZip: Più lungo è meglio, ma non necessario nei modelli di linguaggio visivo.
VisionZip: Longer is Better but Not Necessary in Vision Language Models
December 5, 2024
Autori: Senqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI
Abstract
Gli avanzamenti recenti nei modelli visione-linguaggio hanno migliorato le prestazioni aumentando la lunghezza dei token visivi, rendendoli molto più lunghi dei token di testo e aumentando significativamente i costi computazionali. Tuttavia, osserviamo che i token visivi generati dai popolari encoder di visione, come CLIP e SigLIP, contengono una significativa ridondanza. Per affrontare questo problema, introduciamo VisionZip, un metodo semplice ma efficace che seleziona un insieme di token informativi per l'input al modello linguistico, riducendo la ridondanza dei token visivi e migliorando l'efficienza pur mantenendo le prestazioni del modello. Il VisionZip proposto può essere ampiamente applicato a compiti di comprensione di immagini e video ed è particolarmente adatto per dialoghi a più turni in scenari reali, dove i metodi precedenti tendono a non performare bene. I risultati sperimentali mostrano che VisionZip supera il metodo precedente all'avanguardia di almeno il 5% in termini di guadagni di prestazioni in quasi tutte le configurazioni. Inoltre, il nostro metodo migliora significativamente la velocità di inferenza del modello, riducendo il tempo di precaricamento di 8 volte e consentendo al modello LLaVA-Next 13B di inferire più velocemente rispetto al modello LLaVA-Next 7B ottenendo risultati migliori. Inoltre, analizziamo le cause di questa ridondanza e incoraggiamo la comunità a concentrarsi sull'estrazione di migliori caratteristiche visive piuttosto che semplicemente aumentare la lunghezza dei token. Il nostro codice è disponibile su https://github.com/dvlab-research/VisionZip.
English
Recent advancements in vision-language models have enhanced performance by
increasing the length of visual tokens, making them much longer than text
tokens and significantly raising computational costs. However, we observe that
the visual tokens generated by popular vision encoders, such as CLIP and
SigLIP, contain significant redundancy. To address this, we introduce
VisionZip, a simple yet effective method that selects a set of informative
tokens for input to the language model, reducing visual token redundancy and
improving efficiency while maintaining model performance. The proposed
VisionZip can be widely applied to image and video understanding tasks and is
well-suited for multi-turn dialogues in real-world scenarios, where previous
methods tend to underperform. Experimental results show that VisionZip
outperforms the previous state-of-the-art method by at least 5% performance
gains across nearly all settings. Moreover, our method significantly enhances
model inference speed, improving the prefilling time by 8x and enabling the
LLaVA-Next 13B model to infer faster than the LLaVA-Next 7B model while
achieving better results. Furthermore, we analyze the causes of this redundancy
and encourage the community to focus on extracting better visual features
rather than merely increasing token length. Our code is available at
https://github.com/dvlab-research/VisionZip .Summary
AI-Generated Summary