FastVLM: Codificação Eficiente de Visão para Modelos de Linguagem Visual
FastVLM: Efficient Vision Encoding for Vision Language Models
December 17, 2024
Autores: Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
cs.AI
Resumo
Escalonar a resolução da imagem de entrada é essencial para melhorar o desempenho dos Modelos de Linguagem Visual (VLMs), especialmente em tarefas de compreensão de imagens ricas em texto. No entanto, codificadores visuais populares, como os ViTs, tornam-se ineficientes em altas resoluções devido ao grande número de tokens e à alta latência de codificação causada pelas camadas empilhadas de autoatenção. Em diferentes resoluções operacionais, o codificador visual de um VLM pode ser otimizado ao longo de dois eixos: reduzindo a latência de codificação e minimizando o número de tokens visuais passados para o LLM, diminuindo assim a latência geral. Com base em uma análise abrangente de eficiência da interação entre resolução de imagem, latência visual, contagem de tokens e tamanho do LLM, apresentamos o FastVLM, um modelo que alcança um equilíbrio otimizado entre latência, tamanho do modelo e precisão. O FastVLM incorpora o FastViTHD, um codificador visual híbrido inovador projetado para produzir menos tokens e reduzir significativamente o tempo de codificação para imagens de alta resolução. Ao contrário de métodos anteriores, o FastVLM alcança o equilíbrio ideal entre a contagem de tokens visuais e a resolução da imagem apenas escalando a imagem de entrada, eliminando a necessidade de poda adicional de tokens e simplificando o design do modelo. No cenário LLaVA-1.5, o FastVLM alcança uma melhoria de 3,2 vezes no tempo até o primeiro token (TTFT), mantendo desempenho semelhante em benchmarks de VLM em comparação com trabalhos anteriores. Comparado ao LLaVa-OneVision na resolução mais alta (1152 vezes 1152), o FastVLM alcança desempenho comparável em benchmarks-chave como SeedBench e MMMU, utilizando o mesmo LLM de 0,5B, mas com TTFT 85 vezes mais rápido e um codificador visual 3,4 vezes menor.
English
Scaling the input image resolution is essential for enhancing the performance
of Vision Language Models (VLMs), particularly in text-rich image understanding
tasks. However, popular visual encoders such as ViTs become inefficient at high
resolutions due to the large number of tokens and high encoding latency caused
by stacked self-attention layers. At different operational resolutions, the
vision encoder of a VLM can be optimized along two axes: reducing encoding
latency and minimizing the number of visual tokens passed to the LLM, thereby
lowering overall latency. Based on a comprehensive efficiency analysis of the
interplay between image resolution, vision latency, token count, and LLM size,
we introduce FastVLM, a model that achieves an optimized trade-off between
latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel
hybrid vision encoder designed to output fewer tokens and significantly reduce
encoding time for high-resolution images. Unlike previous methods, FastVLM
achieves the optimal balance between visual token count and image resolution
solely by scaling the input image, eliminating the need for additional token
pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM
achieves 3.2times improvement in time-to-first-token (TTFT) while
maintaining similar performance on VLM benchmarks compared to prior works.
Compared to LLaVa-OneVision at the highest resolution (1152times1152),
FastVLM achieves comparable performance on key benchmarks like SeedBench and
MMMU, using the same 0.5B LLM, but with 85times faster TTFT and a vision
encoder that is 3.4times smaller.Summary
AI-Generated Summary