FastVLM: Codificação Eficiente de Visão para Modelos de Linguagem Visual

Resumo

Escalonar a resolução da imagem de entrada é essencial para melhorar o desempenho dos Modelos de Linguagem Visual (VLMs), especialmente em tarefas de compreensão de imagens ricas em texto. No entanto, codificadores visuais populares, como os ViTs, tornam-se ineficientes em altas resoluções devido ao grande número de tokens e à alta latência de codificação causada pelas camadas empilhadas de autoatenção. Em diferentes resoluções operacionais, o codificador visual de um VLM pode ser otimizado ao longo de dois eixos: reduzindo a latência de codificação e minimizando o número de tokens visuais passados para o LLM, diminuindo assim a latência geral. Com base em uma análise abrangente de eficiência da interação entre resolução de imagem, latência visual, contagem de tokens e tamanho do LLM, apresentamos o FastVLM, um modelo que alcança um equilíbrio otimizado entre latência, tamanho do modelo e precisão. O FastVLM incorpora o FastViTHD, um codificador visual híbrido inovador projetado para produzir menos tokens e reduzir significativamente o tempo de codificação para imagens de alta resolução. Ao contrário de métodos anteriores, o FastVLM alcança o equilíbrio ideal entre a contagem de tokens visuais e a resolução da imagem apenas escalando a imagem de entrada, eliminando a necessidade de poda adicional de tokens e simplificando o design do modelo. No cenário LLaVA-1.5, o FastVLM alcança uma melhoria de 3,2 vezes no tempo até o primeiro token (TTFT), mantendo desempenho semelhante em benchmarks de VLM em comparação com trabalhos anteriores. Comparado ao LLaVa-OneVision na resolução mais alta (1152 vezes 1152), o FastVLM alcança desempenho comparável em benchmarks-chave como SeedBench e MMMU, utilizando o mesmo LLM de 0,5B, mas com TTFT 85 vezes mais rápido e um codificador visual 3,4 vezes menor.

English

Scaling the input image resolution is essential for enhancing the performance of Vision Language Models (VLMs), particularly in text-rich image understanding tasks. However, popular visual encoders such as ViTs become inefficient at high resolutions due to the large number of tokens and high encoding latency caused by stacked self-attention layers. At different operational resolutions, the vision encoder of a VLM can be optimized along two axes: reducing encoding latency and minimizing the number of visual tokens passed to the LLM, thereby lowering overall latency. Based on a comprehensive efficiency analysis of the interplay between image resolution, vision latency, token count, and LLM size, we introduce FastVLM, a model that achieves an optimized trade-off between latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel hybrid vision encoder designed to output fewer tokens and significantly reduce encoding time for high-resolution images. Unlike previous methods, FastVLM achieves the optimal balance between visual token count and image resolution solely by scaling the input image, eliminating the need for additional token pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM achieves 3.2times improvement in time-to-first-token (TTFT) while maintaining similar performance on VLM benchmarks compared to prior works. Compared to LLaVa-OneVision at the highest resolution (1152times1152), FastVLM achieves comparable performance on key benchmarks like SeedBench and MMMU, using the same 0.5B LLM, but with 85times faster TTFT and a vision encoder that is 3.4times smaller.

FastVLM: Codificação Eficiente de Visão para Modelos de Linguagem Visual

FastVLM: Efficient Vision Encoding for Vision Language Models

Resumo

Summary

Support