PyramidDrop: Beschleunigung Ihrer großen Vision-Language-Modelle durch Pyramid Visual Redundanzreduktion
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
October 22, 2024
Autoren: Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Zusammenfassung
In großen Vision-Language-Modellen (LVLMs) dienen Bilder als Eingaben, die eine Fülle von Informationen enthalten. Wie das Sprichwort "Ein Bild sagt mehr als tausend Worte" andeutet, kann die Darstellung eines einzelnen Bildes in aktuellen LVLMs Hunderte oder sogar Tausende von Tokens erfordern. Dies führt zu erheblichen Rechenkosten, die sich quadratisch erhöhen, wenn die Eingangsauflösung des Bildes zunimmt, was die Effizienz sowohl des Trainings als auch der Inferenz erheblich beeinträchtigt. Frühere Ansätze haben versucht, die Anzahl der Bildtokens entweder vor oder innerhalb der frühen Schichten von LVLMs zu reduzieren. Diese Strategien führen jedoch zwangsläufig zum Verlust wichtiger Bildinformationen, was letztendlich die Modellleistung beeinträchtigt. Um diese Herausforderung anzugehen, führen wir eine empirische Studie durch, die zeigt, dass alle visuellen Tokens für LVLMs in den oberflächlichen Schichten notwendig sind und die Token-Redundanz in den tieferen Schichten des Modells zunehmend ansteigt. Zu diesem Zweck schlagen wir PyramidDrop vor, eine Strategie zur Reduzierung visueller Redundanz für LVLMs, um ihre Effizienz sowohl beim Training als auch bei der Inferenz mit vernachlässigbarem Leistungsverlust zu steigern. Konkret unterteilen wir das LVLM in mehrere Stufen und lassen am Ende jeder Stufe einen Teil der Bildtokens mit einem vordefinierten Verhältnis fallen, wodurch pyramidenartige visuelle Tokens über Modellschichten hinweg entstehen. Das Fallenlassen basiert auf einer leichten Ähnlichkeitsberechnung mit einem vernachlässigbaren zeitlichen Overhead. Umfangreiche Experimente zeigen, dass PyramidDrop eine Beschleunigung der Trainingszeit um 40 % und der Inferenz-FLOPs um 55 % von LLaVA-NeXT mit vergleichbarer Leistung erreichen kann. Darüber hinaus könnte PyramidDrop auch als Plug-and-Play-Strategie für die Beschleunigung der Inferenz ohne Training dienen, mit besserer Leistung und geringeren Inferenzkosten als vergleichbare Ansätze. Wir hoffen, dass die Erkenntnisse und der Ansatz, die durch PyramidDrop eingeführt wurden, zukünftige Forschungen dazu inspirieren werden, die Rolle von Bildtokens in LVLMs weiter zu untersuchen.
English
In large vision-language models (LVLMs), images serve as inputs that carry a
wealth of information. As the idiom "A picture is worth a thousand words"
implies, representing a single image in current LVLMs can require hundreds or
even thousands of tokens. This results in significant computational costs,
which grow quadratically as input image resolution increases, thereby severely
impacting the efficiency of both training and inference. Previous approaches
have attempted to reduce the number of image tokens either before or within the
early layers of LVLMs. However, these strategies inevitably result in the loss
of crucial image information, ultimately diminishing model performance. To
address this challenge, we conduct an empirical study revealing that all visual
tokens are necessary for LVLMs in the shallow layers, and token redundancy
progressively increases in the deeper layers of the model. To this end, we
propose PyramidDrop, a visual redundancy reduction strategy for LVLMs to boost
their efficiency in both training and inference with neglectable performance
loss. Specifically, we partition the LVLM into several stages and drop part of
the image tokens at the end of each stage with a pre-defined ratio, creating
pyramid-like visual tokens across model layers. The dropping is based on a
lightweight similarity calculation with a negligible time overhead. Extensive
experiments demonstrate that PyramidDrop can achieve a 40% training time and
55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance.
Besides, the PyramidDrop could also serve as a plug-and-play strategy for
inference acceleration without training, with better performance and lower
inference cost than counterparts. We hope that the insights and approach
introduced by PyramidDrop will inspire future research to further investigate
the role of image tokens in LVLMs.Summary
AI-Generated Summary