Piumare l'acceleratore: Rivedere il diradamento dei token visivi per l'accelerazione dei modelli visione-linguaggio
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
December 17, 2024
Autori: Mark Endo, Xiaohan Wang, Serena Yeung-Levy
cs.AI
Abstract
Recenti lavori sull'accelerazione dei Modelli Visione-Linguaggio mostrano che è possibile mantenere elevate prestazioni in una varietà di compiti visione-linguaggio nonostante la compressione elevata delle informazioni visive. In questo studio, esaminiamo l'approccio di accelerazione popolare del pruning precoce dei token visivi all'interno del modello linguistico e scopriamo che le sue elevate prestazioni in molti compiti non sono dovute a un'eccezionale capacità di comprimere le informazioni visive, ma piuttosto alla limitata capacità dei benchmark di valutare le capacità visive dettagliate. In particolare, dimostriamo un problema fondamentale con l'approccio di accelerazione in cui la maggior parte dei token nella parte superiore dell'immagine viene eliminata. Tuttavia, questo problema si riflette solo nelle prestazioni per un piccolo sottoinsieme di compiti come la localizzazione. Per gli altri compiti valutati, si mantengono elevate prestazioni con la strategia di pruning difettosa. Notando le limitate capacità visive della tecnica di accelerazione studiata, proponiamo FEATHER (Accelerazione Veloce ed Efficace con Criteri di Insieme), un approccio diretto che (1) risolve il problema identificato con il pruning precoce dei livelli iniziali, (2) incorpora un campionamento uniforme per garantire una copertura su tutte le regioni dell'immagine e (3) applica il pruning in due fasi per consentire ai criteri di diventare più efficaci in un livello successivo pur ottenendo un significativo aumento di velocità attraverso il pruning dei livelli iniziali. Con risparmi computazionali comparabili, scopriamo che FEATHER ha un miglioramento delle prestazioni di oltre 5 volte sui benchmark di localizzazione centrati sulla visione rispetto all'approccio di accelerazione originale.
English
Recent works on accelerating Vision-Language Models show that strong
performance can be maintained across a variety of vision-language tasks despite
highly compressing visual information. In this work, we examine the popular
acceleration approach of early pruning of visual tokens inside the language
model and find that its strong performance across many tasks is not due to an
exceptional ability to compress visual information, but rather the benchmarks'
limited ability to assess fine-grained visual capabilities. Namely, we
demonstrate a core issue with the acceleration approach where most tokens
towards the top of the image are pruned away. Yet, this issue is only reflected
in performance for a small subset of tasks such as localization. For the other
evaluated tasks, strong performance is maintained with the flawed pruning
strategy. Noting the limited visual capabilities of the studied acceleration
technique, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble
cRiteria), a straightforward approach that (1) resolves the identified issue
with early-layer pruning, (2) incorporates uniform sampling to ensure coverage
across all image regions, and (3) applies pruning in two stages to allow the
criteria to become more effective at a later layer while still achieving
significant speedup through early-layer pruning. With comparable computational
savings, we find that FEATHER has more than 5times performance improvement
on the vision-centric localization benchmarks compared to the original
acceleration approach.Summary
AI-Generated Summary