Suavizar o Acelerador: Revisitando a Poda de Tokens Visuais para Aceleração de Modelos de Visão e Linguagem

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

December 17, 2024
Autores: Mark Endo, Xiaohan Wang, Serena Yeung-Levy
cs.AI

Resumo

Trabalhos recentes sobre aceleração de Modelos de Visão e Linguagem mostram que um desempenho forte pode ser mantido em uma variedade de tarefas de visão e linguagem, apesar da compressão intensa da informação visual. Neste trabalho, examinamos a abordagem popular de aceleração de poda precoce de tokens visuais dentro do modelo de linguagem e descobrimos que seu forte desempenho em muitas tarefas não se deve a uma capacidade excepcional de compressão da informação visual, mas sim à capacidade limitada dos benchmarks de avaliar as capacidades visuais detalhadas. Demonstramos um problema central com a abordagem de aceleração, onde a maioria dos tokens no topo da imagem é podada. No entanto, esse problema é refletido apenas no desempenho de um pequeno subconjunto de tarefas, como a localização. Para as outras tarefas avaliadas, o forte desempenho é mantido com a estratégia de poda defeituosa. Observando as capacidades visuais limitadas da técnica de aceleração estudada, propomos FEATHER (Aceleração Rápida e Efetiva com Critérios de Conjunto), uma abordagem direta que (1) resolve o problema identificado com a poda precoce de camadas, (2) incorpora amostragem uniforme para garantir cobertura em todas as regiões da imagem e (3) aplica a poda em duas etapas para permitir que os critérios se tornem mais eficazes em uma camada posterior, mantendo ainda uma aceleração significativa por meio da poda precoce. Com economia computacional comparável, descobrimos que o FEATHER apresenta mais de 5 vezes de melhoria de desempenho nos benchmarks de localização centrados na visão em comparação com a abordagem de aceleração original.
English
Recent works on accelerating Vision-Language Models show that strong performance can be maintained across a variety of vision-language tasks despite highly compressing visual information. In this work, we examine the popular acceleration approach of early pruning of visual tokens inside the language model and find that its strong performance across many tasks is not due to an exceptional ability to compress visual information, but rather the benchmarks' limited ability to assess fine-grained visual capabilities. Namely, we demonstrate a core issue with the acceleration approach where most tokens towards the top of the image are pruned away. Yet, this issue is only reflected in performance for a small subset of tasks such as localization. For the other evaluated tasks, strong performance is maintained with the flawed pruning strategy. Noting the limited visual capabilities of the studied acceleration technique, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble cRiteria), a straightforward approach that (1) resolves the identified issue with early-layer pruning, (2) incorporates uniform sampling to ensure coverage across all image regions, and (3) applies pruning in two stages to allow the criteria to become more effective at a later layer while still achieving significant speedup through early-layer pruning. With comparable computational savings, we find that FEATHER has more than 5times performance improvement on the vision-centric localization benchmarks compared to the original acceleration approach.

Summary

AI-Generated Summary

PDF132December 18, 2024