FastVLM: Codifica efficiente delle immagini per modelli di linguaggio visivo
FastVLM: Efficient Vision Encoding for Vision Language Models
December 17, 2024
Autori: Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
cs.AI
Abstract
La scalatura della risoluzione dell'immagine in input è essenziale per migliorare le prestazioni dei Modelli di Visione e Linguaggio (VLM), in particolare nei compiti di comprensione delle immagini ricche di testo. Tuttavia, i popolari codificatori visivi come i ViTs diventano inefficienti ad alte risoluzioni a causa del grande numero di token e dell'alta latenza di codifica causata dagli strati di auto-attenzione impilati. A diverse risoluzioni operative, il codificatore visivo di un VLM può essere ottimizzato lungo due assi: riducendo la latenza di codifica e minimizzando il numero di token visivi passati al LLM, riducendo così la latenza complessiva. Sulla base di un'analisi completa dell'efficienza dell'interazione tra risoluzione dell'immagine, latenza visiva, conteggio dei token e dimensione del LLM, introduciamo FastVLM, un modello che raggiunge un compromesso ottimizzato tra latenza, dimensione del modello e accuratezza. FastVLM incorpora FastViTHD, un nuovo codificatore visivo ibrido progettato per produrre meno token e ridurre significativamente il tempo di codifica per immagini ad alta risoluzione. A differenza dei metodi precedenti, FastVLM raggiunge l'equilibrio ottimale tra conteggio dei token visivi e risoluzione dell'immagine solo scalando l'immagine in input, eliminando la necessità di potatura aggiuntiva dei token e semplificando la progettazione del modello. Nella configurazione LLaVA-1.5, FastVLM ottiene un miglioramento di 3,2 volte nel tempo al primo token (TTFT) mantenendo prestazioni simili sui benchmark dei VLM rispetto ai lavori precedenti. Rispetto a LLaVa-OneVision alla massima risoluzione (1152x1152), FastVLM raggiunge prestazioni comparabili su benchmark chiave come SeedBench e MMMU, utilizzando lo stesso LLM da 0,5B, ma con un TTFT 85 volte più veloce e un codificatore visivo che è 3,4 volte più piccolo.
English
Scaling the input image resolution is essential for enhancing the performance
of Vision Language Models (VLMs), particularly in text-rich image understanding
tasks. However, popular visual encoders such as ViTs become inefficient at high
resolutions due to the large number of tokens and high encoding latency caused
by stacked self-attention layers. At different operational resolutions, the
vision encoder of a VLM can be optimized along two axes: reducing encoding
latency and minimizing the number of visual tokens passed to the LLM, thereby
lowering overall latency. Based on a comprehensive efficiency analysis of the
interplay between image resolution, vision latency, token count, and LLM size,
we introduce FastVLM, a model that achieves an optimized trade-off between
latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel
hybrid vision encoder designed to output fewer tokens and significantly reduce
encoding time for high-resolution images. Unlike previous methods, FastVLM
achieves the optimal balance between visual token count and image resolution
solely by scaling the input image, eliminating the need for additional token
pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM
achieves 3.2times improvement in time-to-first-token (TTFT) while
maintaining similar performance on VLM benchmarks compared to prior works.
Compared to LLaVa-OneVision at the highest resolution (1152times1152),
FastVLM achieves comparable performance on key benchmarks like SeedBench and
MMMU, using the same 0.5B LLM, but with 85times faster TTFT and a vision
encoder that is 3.4times smaller.Summary
AI-Generated Summary