Inferentie-optimale VLM's hebben slechts één visueel token nodig, maar wel grotere modellen.
Inference Optimal VLMs Need Only One Visual Token but Larger Models
November 5, 2024
Auteurs: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter
cs.AI
Samenvatting
Vision Language Models (VLM's) hebben sterke capaciteiten aangetoond op verschillende visuele begrips- en redeneertaken. Echter, hun implementatie in de echte wereld wordt vaak beperkt door hoge latentie tijdens inferentie als gevolg van aanzienlijke berekeningen die nodig zijn om de grote hoeveelheid invoertokens (voornamelijk afkomstig van de afbeelding) te verwerken door de LLM. Om inferentiekosten te verlagen, kan men ofwel de LLM verkleinen of het aantal invoerbeeldtokens verminderen, waarbij de laatste de focus is geweest van veel recente werken rond tokencompressie. Het is echter onduidelijk wat de optimale afweging is, aangezien beide factoren rechtstreeks van invloed zijn op de prestaties van de VLM. We karakteriseren eerst deze optimale afweging tussen het aantal visuele tokens en LLM-parameters door schaalwetten vast te stellen die variaties in prestaties met deze twee factoren vastleggen. Onze resultaten onthullen een verrassende trend: voor visuele redeneertaken wordt het inferentie-optimaal gedrag in VLM's, d.w.z. minimale foutenstroom bij een vastgestelde inferentieberekening, bereikt wanneer de grootste LLM wordt gebruikt die binnen het inferentiebudget past, terwijl het aantal visuele tokens wordt geminimaliseerd - vaak tot een enkel token. Terwijl de literatuur over tokenvermindering zich voornamelijk heeft gericht op het handhaven van de prestaties van het basismodel door het aantal tokens bescheiden te verminderen (bijv. 5-10 keer), geven onze resultaten aan dat het reken-optimaal inferentiegebied vereist dat er wordt gewerkt onder nog hogere compressieverhoudingen van tokens. Op basis van deze inzichten zetten we enkele eerste stappen naar het ontwikkelen van benaderingen die zijn afgestemd op instellingen met hoge tokencompressie. De code is beschikbaar op https://github.com/locuslab/llava-token-compression.
English
Vision Language Models (VLMs) have demonstrated strong capabilities across
various visual understanding and reasoning tasks. However, their real-world
deployment is often constrained by high latency during inference due to
substantial compute required to process the large number of input tokens
(predominantly from the image) by the LLM. To reduce inference costs, one can
either downsize the LLM or reduce the number of input image-tokens, the latter
of which has been the focus of many recent works around token compression.
However, it is unclear what the optimal trade-off is, as both the factors
directly affect the VLM performance. We first characterize this optimal
trade-off between the number of visual tokens and LLM parameters by
establishing scaling laws that capture variations in performance with these two
factors. Our results reveal a surprising trend: for visual reasoning tasks, the
inference-optimal behavior in VLMs, i.e., minimum downstream error at any given
fixed inference compute, is achieved when using the largest LLM that fits
within the inference budget while minimizing visual token count - often to a
single token. While the token reduction literature has mainly focused on
maintaining base model performance by modestly reducing the token count (e.g.,
5-10times), our results indicate that the compute-optimal inference regime
requires operating under even higher token compression ratios. Based on these
insights, we take some initial steps towards building approaches tailored for
high token compression settings. Code is available at
https://github.com/locuslab/llava-token-compression.Summary
AI-Generated Summary