Inferenzoptimale VLMs benötigen nur ein visuelles Token, jedoch größere Modelle.
Inference Optimal VLMs Need Only One Visual Token but Larger Models
November 5, 2024
Autoren: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter
cs.AI
Zusammenfassung
Vision Language Models (VLMs) haben starke Fähigkeiten in verschiedenen visuellen Verständnis- und Schlussfolgerungsaufgaben gezeigt. Ihre praktische Anwendung wird jedoch oft durch hohe Latenzzeiten während der Inferenz aufgrund des erheblichen Rechenaufwands eingeschränkt, der erforderlich ist, um die große Anzahl von Eingabetokens (hauptsächlich aus dem Bild) durch das LLM zu verarbeiten. Um die Inferenzkosten zu reduzieren, kann man entweder das LLM verkleinern oder die Anzahl der Eingabe-Bildtokens reduzieren, wobei letzteres im Fokus vieler aktueller Arbeiten zur Token-Kompression steht. Es ist jedoch unklar, was der optimale Kompromiss ist, da beide Faktoren die Leistung des VLM direkt beeinflussen. Wir charakterisieren zunächst diesen optimalen Kompromiss zwischen der Anzahl der visuellen Tokens und den LLM-Parametern, indem wir Skalierungsgesetze etablieren, die Variationen in der Leistung mit diesen beiden Faktoren erfassen. Unsere Ergebnisse zeigen einen überraschenden Trend: Für visuelle Schlussfolgerungsaufgaben wird das inferenzoptimale Verhalten in VLMs, d.h. minimale Fehler in der Nachbearbeitung bei einem festgelegten Inferenzrechenaufwand, erreicht, wenn das größte LLM verwendet wird, das im Inferenzbudget liegt, während die Anzahl der visuellen Tokens minimiert wird - oft auf ein einzelnes Token. Während sich die Literatur zur Token-Reduktion hauptsächlich darauf konzentriert hat, die Leistung des Basismodells durch eine moderate Reduzierung der Tokenanzahl (z.B. 5-10 Mal) zu erhalten, zeigen unsere Ergebnisse, dass das rechenoptimale Inferenzregime den Betrieb unter noch höheren Token-Kompressionsverhältnissen erfordert. Basierend auf diesen Erkenntnissen unternehmen wir erste Schritte hin zur Entwicklung von Ansätzen, die für Einstellungen mit hoher Token-Kompression maßgeschneidert sind. Der Code ist verfügbar unter https://github.com/locuslab/llava-token-compression.
English
Vision Language Models (VLMs) have demonstrated strong capabilities across
various visual understanding and reasoning tasks. However, their real-world
deployment is often constrained by high latency during inference due to
substantial compute required to process the large number of input tokens
(predominantly from the image) by the LLM. To reduce inference costs, one can
either downsize the LLM or reduce the number of input image-tokens, the latter
of which has been the focus of many recent works around token compression.
However, it is unclear what the optimal trade-off is, as both the factors
directly affect the VLM performance. We first characterize this optimal
trade-off between the number of visual tokens and LLM parameters by
establishing scaling laws that capture variations in performance with these two
factors. Our results reveal a surprising trend: for visual reasoning tasks, the
inference-optimal behavior in VLMs, i.e., minimum downstream error at any given
fixed inference compute, is achieved when using the largest LLM that fits
within the inference budget while minimizing visual token count - often to a
single token. While the token reduction literature has mainly focused on
maintaining base model performance by modestly reducing the token count (e.g.,
5-10times), our results indicate that the compute-optimal inference regime
requires operating under even higher token compression ratios. Based on these
insights, we take some initial steps towards building approaches tailored for
high token compression settings. Code is available at
https://github.com/locuslab/llava-token-compression.Summary
AI-Generated Summary