スロットルを調整する:ビジョン-言語モデルの加速のためのビジュアルトークン剪定の再検討
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
December 17, 2024
著者: Mark Endo, Xiaohan Wang, Serena Yeung-Levy
cs.AI
要旨
最近のビジョン言語モデルの高速化に関する研究では、視覚情報を高度に圧縮しても、さまざまなビジョン言語タスクで強力なパフォーマンスが維持されることが示されています。本研究では、言語モデル内の視覚トークンの早期剪定という人気のある高速化手法を検証し、その強力なパフォーマンスが多くのタスクで維持される理由は、視覚情報を圧縮する特別な能力にあるのではなく、ベンチマークが微細な視覚能力を評価する能力が限られているためであることを明らかにします。具体的には、画像の上部に位置するほとんどのトークンが剪定されるという高速化手法の中核的な問題を示しました。しかし、この問題は、位置特定などの一部のタスクにのみパフォーマンスに反映されます。他の評価されたタスクでは、欠陥のある剪定戦略でも強力なパフォーマンスが維持されます。研究された高速化技術の視覚能力の限界を考慮し、私たちはFEATHER(Fast and Effective Acceleration wiTH Ensemble cRiteria)を提案します。これは、(1)早期層の剪定で特定された問題を解決し、(2)すべての画像領域をカバーするために均一なサンプリングを組み込み、(3)剪定を2段階で行い、後の層で基準がより効果的になるようにしながらも、早期層の剪定を通じて大幅な高速化を実現します。計算上の節約が同等である中で、FEATHERは、元の高速化手法と比較して、ビジョン中心の位置特定のベンチマークで5倍以上のパフォーマンス改善が見られました。
English
Recent works on accelerating Vision-Language Models show that strong
performance can be maintained across a variety of vision-language tasks despite
highly compressing visual information. In this work, we examine the popular
acceleration approach of early pruning of visual tokens inside the language
model and find that its strong performance across many tasks is not due to an
exceptional ability to compress visual information, but rather the benchmarks'
limited ability to assess fine-grained visual capabilities. Namely, we
demonstrate a core issue with the acceleration approach where most tokens
towards the top of the image are pruned away. Yet, this issue is only reflected
in performance for a small subset of tasks such as localization. For the other
evaluated tasks, strong performance is maintained with the flawed pruning
strategy. Noting the limited visual capabilities of the studied acceleration
technique, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble
cRiteria), a straightforward approach that (1) resolves the identified issue
with early-layer pruning, (2) incorporates uniform sampling to ensure coverage
across all image regions, and (3) applies pruning in two stages to allow the
criteria to become more effective at a later layer while still achieving
significant speedup through early-layer pruning. With comparable computational
savings, we find that FEATHER has more than 5times performance improvement
on the vision-centric localization benchmarks compared to the original
acceleration approach.Summary
AI-Generated Summary