PyramidDrop : Accélération de vos grands modèles Vision-Language via la réduction de la redondance visuelle en pyramide
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
October 22, 2024
Auteurs: Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Résumé
Dans les grands modèles de vision-langage (LVLM), les images servent d'entrées contenant une quantité importante d'informations. Comme le dit l'expression "Une image vaut mille mots", la représentation d'une seule image dans les LVLM actuels peut nécessiter des centaines, voire des milliers de jetons. Cela entraîne des coûts computationnels importants, qui augmentent de manière quadratique à mesure que la résolution de l'image d'entrée augmente, impactant ainsi considérablement l'efficacité à la fois de l'entraînement et de l'inférence. Des approches antérieures ont tenté de réduire le nombre de jetons d'image soit avant, soit au sein des premières couches des LVLM. Cependant, ces stratégies entraînent inévitablement une perte d'informations visuelles cruciales, diminuant ainsi finalement les performances du modèle. Pour relever ce défi, nous menons une étude empirique révélant que tous les jetons visuels sont nécessaires pour les LVLM dans les couches peu profondes, et que la redondance des jetons augmente progressivement dans les couches plus profondes du modèle. À cette fin, nous proposons PyramidDrop, une stratégie de réduction de la redondance visuelle pour les LVLM afin d'améliorer leur efficacité à la fois lors de l'entraînement et de l'inférence avec une perte de performance négligeable. Plus précisément, nous divisons le LVLM en plusieurs étapes et supprimons une partie des jetons d'image à la fin de chaque étape avec un ratio prédéfini, créant ainsi des jetons visuels en forme de pyramide à travers les couches du modèle. La suppression est basée sur un calcul de similarité léger avec un temps négligeable. De vastes expériences démontrent que PyramidDrop peut atteindre une accélération de 40% du temps d'entraînement et de 55% des FLOPs d'inférence de LLaVA-NeXT avec des performances comparables. De plus, PyramidDrop pourrait également servir de stratégie plug-and-play pour l'accélération de l'inférence sans entraînement, avec de meilleures performances et un coût d'inférence inférieur à celui des alternatives. Nous espérons que les idées et l'approche introduites par PyramidDrop inspireront les futures recherches pour approfondir le rôle des jetons d'image dans les LVLM.
English
In large vision-language models (LVLMs), images serve as inputs that carry a
wealth of information. As the idiom "A picture is worth a thousand words"
implies, representing a single image in current LVLMs can require hundreds or
even thousands of tokens. This results in significant computational costs,
which grow quadratically as input image resolution increases, thereby severely
impacting the efficiency of both training and inference. Previous approaches
have attempted to reduce the number of image tokens either before or within the
early layers of LVLMs. However, these strategies inevitably result in the loss
of crucial image information, ultimately diminishing model performance. To
address this challenge, we conduct an empirical study revealing that all visual
tokens are necessary for LVLMs in the shallow layers, and token redundancy
progressively increases in the deeper layers of the model. To this end, we
propose PyramidDrop, a visual redundancy reduction strategy for LVLMs to boost
their efficiency in both training and inference with neglectable performance
loss. Specifically, we partition the LVLM into several stages and drop part of
the image tokens at the end of each stage with a pre-defined ratio, creating
pyramid-like visual tokens across model layers. The dropping is based on a
lightweight similarity calculation with a negligible time overhead. Extensive
experiments demonstrate that PyramidDrop can achieve a 40% training time and
55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance.
Besides, the PyramidDrop could also serve as a plug-and-play strategy for
inference acceleration without training, with better performance and lower
inference cost than counterparts. We hope that the insights and approach
introduced by PyramidDrop will inspire future research to further investigate
the role of image tokens in LVLMs.Summary
AI-Generated Summary