Inferentie-optimale VLM's hebben slechts één visueel token nodig, maar wel grotere modellen.

Samenvatting

Vision Language Models (VLM's) hebben sterke capaciteiten aangetoond op verschillende visuele begrips- en redeneertaken. Echter, hun implementatie in de echte wereld wordt vaak beperkt door hoge latentie tijdens inferentie als gevolg van aanzienlijke berekeningen die nodig zijn om de grote hoeveelheid invoertokens (voornamelijk afkomstig van de afbeelding) te verwerken door de LLM. Om inferentiekosten te verlagen, kan men ofwel de LLM verkleinen of het aantal invoerbeeldtokens verminderen, waarbij de laatste de focus is geweest van veel recente werken rond tokencompressie. Het is echter onduidelijk wat de optimale afweging is, aangezien beide factoren rechtstreeks van invloed zijn op de prestaties van de VLM. We karakteriseren eerst deze optimale afweging tussen het aantal visuele tokens en LLM-parameters door schaalwetten vast te stellen die variaties in prestaties met deze twee factoren vastleggen. Onze resultaten onthullen een verrassende trend: voor visuele redeneertaken wordt het inferentie-optimaal gedrag in VLM's, d.w.z. minimale foutenstroom bij een vastgestelde inferentieberekening, bereikt wanneer de grootste LLM wordt gebruikt die binnen het inferentiebudget past, terwijl het aantal visuele tokens wordt geminimaliseerd - vaak tot een enkel token. Terwijl de literatuur over tokenvermindering zich voornamelijk heeft gericht op het handhaven van de prestaties van het basismodel door het aantal tokens bescheiden te verminderen (bijv. 5-10 keer), geven onze resultaten aan dat het reken-optimaal inferentiegebied vereist dat er wordt gewerkt onder nog hogere compressieverhoudingen van tokens. Op basis van deze inzichten zetten we enkele eerste stappen naar het ontwikkelen van benaderingen die zijn afgestemd op instellingen met hoge tokencompressie. De code is beschikbaar op https://github.com/locuslab/llava-token-compression.

English

Vision Language Models (VLMs) have demonstrated strong capabilities across various visual understanding and reasoning tasks. However, their real-world deployment is often constrained by high latency during inference due to substantial compute required to process the large number of input tokens (predominantly from the image) by the LLM. To reduce inference costs, one can either downsize the LLM or reduce the number of input image-tokens, the latter of which has been the focus of many recent works around token compression. However, it is unclear what the optimal trade-off is, as both the factors directly affect the VLM performance. We first characterize this optimal trade-off between the number of visual tokens and LLM parameters by establishing scaling laws that capture variations in performance with these two factors. Our results reveal a surprising trend: for visual reasoning tasks, the inference-optimal behavior in VLMs, i.e., minimum downstream error at any given fixed inference compute, is achieved when using the largest LLM that fits within the inference budget while minimizing visual token count - often to a single token. While the token reduction literature has mainly focused on maintaining base model performance by modestly reducing the token count (e.g., 5-10times), our results indicate that the compute-optimal inference regime requires operating under even higher token compression ratios. Based on these insights, we take some initial steps towards building approaches tailored for high token compression settings. Code is available at https://github.com/locuslab/llava-token-compression.

Inferentie-optimale VLM's hebben slechts één visueel token nodig, maar wel grotere modellen.

Inference Optimal VLMs Need Only One Visual Token but Larger Models

Samenvatting

Support