I VLM ottimali per l'Inferenza richiedono un solo token visivo ma modelli più grandi.
Inference Optimal VLMs Need Only One Visual Token but Larger Models
November 5, 2024
Autori: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter
cs.AI
Abstract
I modelli di linguaggio visivo (VLM) hanno dimostrato forti capacità in varie attività di comprensione e ragionamento visivo. Tuttavia, la loro implementazione nel mondo reale è spesso limitata da elevate latenze durante l'inferenza a causa del considerevole calcolo necessario per elaborare il grande numero di token di input (prevalentemente dall'immagine) da parte del LLM. Per ridurre i costi di inferenza, si può ridimensionare il LLM o ridurre il numero di token di immagine di input, quest'ultimo è stato l'oggetto di molti lavori recenti sulla compressione dei token. Tuttavia, non è chiaro quale sia il compromesso ottimale, poiché entrambi i fattori influenzano direttamente le prestazioni del VLM. Caratterizziamo innanzitutto questo compromesso ottimale tra il numero di token visivi e i parametri LLM stabilendo leggi di scalabilità che catturano le variazioni delle prestazioni con questi due fattori. I nostri risultati rivelano un trend sorprendente: per le attività di ragionamento visivo, il comportamento ottimale nell'inferenza nei VLM, cioè l'errore minimo a valori fissi di calcolo di inferenza, si ottiene utilizzando il LLM più grande che rientra nel budget di inferenza riducendo al minimo il conteggio dei token visivi - spesso fino a un singolo token. Mentre la letteratura sulla riduzione dei token si è concentrata principalmente nel mantenere le prestazioni del modello base riducendo modestamente il conteggio dei token (ad esempio, 5-10 volte), i nostri risultati indicano che il regime di inferenza ottimale dal punto di vista del calcolo richiede di operare con rapporti di compressione dei token ancora più elevati. Sulla base di queste intuizioni, intraprendiamo alcuni passi iniziali verso la costruzione di approcci adattati per impostazioni di elevata compressione dei token. Il codice è disponibile su https://github.com/locuslab/llava-token-compression.
English
Vision Language Models (VLMs) have demonstrated strong capabilities across
various visual understanding and reasoning tasks. However, their real-world
deployment is often constrained by high latency during inference due to
substantial compute required to process the large number of input tokens
(predominantly from the image) by the LLM. To reduce inference costs, one can
either downsize the LLM or reduce the number of input image-tokens, the latter
of which has been the focus of many recent works around token compression.
However, it is unclear what the optimal trade-off is, as both the factors
directly affect the VLM performance. We first characterize this optimal
trade-off between the number of visual tokens and LLM parameters by
establishing scaling laws that capture variations in performance with these two
factors. Our results reveal a surprising trend: for visual reasoning tasks, the
inference-optimal behavior in VLMs, i.e., minimum downstream error at any given
fixed inference compute, is achieved when using the largest LLM that fits
within the inference budget while minimizing visual token count - often to a
single token. While the token reduction literature has mainly focused on
maintaining base model performance by modestly reducing the token count (e.g.,
5-10times), our results indicate that the compute-optimal inference regime
requires operating under even higher token compression ratios. Based on these
insights, we take some initial steps towards building approaches tailored for
high token compression settings. Code is available at
https://github.com/locuslab/llava-token-compression.Summary
AI-Generated Summary