PyramidDrop: Het versnellen van uw grote visie-taalmodellen via piramide visuele redundantiereductie.
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
October 22, 2024
Auteurs: Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Samenvatting
In grote visie-taalmodellen (LVLM's) dienen afbeeldingen als invoer die een schat aan informatie bevatten. Zoals het gezegde "Een foto zegt meer dan duizend woorden" impliceert, kan het representeren van een enkele afbeelding in huidige LVLM's honderden of zelfs duizenden tokens vereisen. Dit resulteert in aanzienlijke computationele kosten, die kwadratisch toenemen naarmate de resolutie van de invoerafbeelding toeneemt, waardoor de efficiëntie van zowel training als inferentie ernstig wordt beïnvloed. Eerdere benaderingen hebben geprobeerd het aantal afbeeldingstokens te verminderen, ofwel vóór of binnen de vroege lagen van LVLM's. Deze strategieën resulteren echter onvermijdelijk in het verlies van cruciale beeldinformatie, wat uiteindelijk de modelprestaties vermindert. Om deze uitdaging aan te gaan, voeren we een empirische studie uit waaruit blijkt dat alle visuele tokens noodzakelijk zijn voor LVLM's in de ondiepe lagen, en dat token redundantie progressief toeneemt in de diepere lagen van het model. Daartoe stellen we PyramidDrop voor, een strategie voor het verminderen van visuele redundantie in LVLM's om hun efficiëntie in zowel training als inferentie te verhogen met verwaarloosbaar prestatieverlies. Specifiek verdelen we de LVLM in verschillende fasen en laten we aan het einde van elke fase een deel van de afbeeldingstokens vallen met een vooraf gedefinieerde verhouding, waardoor piramide-achtige visuele tokens ontstaan over modellagen. Het laten vallen is gebaseerd op een lichtgewicht gelijkheidsberekening met een verwaarloosbare tijdsbelasting. Uitgebreide experimenten tonen aan dat PyramidDrop een versnelling van 40% in trainingstijd en 55% in inferentie-FLOPs kan bereiken van LLaVA-NeXT met vergelijkbare prestaties. Bovendien kan PyramidDrop ook dienen als een plug-and-play strategie voor inferentieversnelling zonder training, met betere prestaties en lagere inferentiekosten dan tegenhangers. We hopen dat de inzichten en benadering geïntroduceerd door PyramidDrop toekomstig onderzoek zullen inspireren om verder te onderzoeken wat de rol van afbeeldingstokens is in LVLM's.
English
In large vision-language models (LVLMs), images serve as inputs that carry a
wealth of information. As the idiom "A picture is worth a thousand words"
implies, representing a single image in current LVLMs can require hundreds or
even thousands of tokens. This results in significant computational costs,
which grow quadratically as input image resolution increases, thereby severely
impacting the efficiency of both training and inference. Previous approaches
have attempted to reduce the number of image tokens either before or within the
early layers of LVLMs. However, these strategies inevitably result in the loss
of crucial image information, ultimately diminishing model performance. To
address this challenge, we conduct an empirical study revealing that all visual
tokens are necessary for LVLMs in the shallow layers, and token redundancy
progressively increases in the deeper layers of the model. To this end, we
propose PyramidDrop, a visual redundancy reduction strategy for LVLMs to boost
their efficiency in both training and inference with neglectable performance
loss. Specifically, we partition the LVLM into several stages and drop part of
the image tokens at the end of each stage with a pre-defined ratio, creating
pyramid-like visual tokens across model layers. The dropping is based on a
lightweight similarity calculation with a negligible time overhead. Extensive
experiments demonstrate that PyramidDrop can achieve a 40% training time and
55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance.
Besides, the PyramidDrop could also serve as a plug-and-play strategy for
inference acceleration without training, with better performance and lower
inference cost than counterparts. We hope that the insights and approach
introduced by PyramidDrop will inspire future research to further investigate
the role of image tokens in LVLMs.Summary
AI-Generated Summary