Les VLMs optimaux en inférence n'ont besoin que d'un seul jeton visuel mais de modèles plus grands.
Inference Optimal VLMs Need Only One Visual Token but Larger Models
November 5, 2024
Auteurs: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter
cs.AI
Résumé
Les Modèles de Langage Vision (VLM) ont démontré de solides capacités dans diverses tâches de compréhension et de raisonnement visuel. Cependant, leur déploiement dans le monde réel est souvent limité par une latence élevée lors de l'inférence en raison du calcul substantiel nécessaire pour traiter le grand nombre de jetons d'entrée (principalement issus de l'image) par le LLM. Pour réduire les coûts d'inférence, on peut soit réduire la taille du LLM, soit réduire le nombre de jetons d'image en entrée, cette dernière option étant au cœur de nombreux travaux récents sur la compression de jetons. Cependant, il n'est pas clair quel est le compromis optimal, car ces deux facteurs affectent directement les performances du VLM. Nous caractérisons d'abord ce compromis optimal entre le nombre de jetons visuels et les paramètres du LLM en établissant des lois d'échelle qui capturent les variations de performance avec ces deux facteurs. Nos résultats révèlent une tendance surprenante : pour les tâches de raisonnement visuel, le comportement optimal en termes d'inférence dans les VLM, c'est-à-dire une erreur minimale en aval pour un calcul d'inférence fixe donné, est atteint en utilisant le plus grand LLM qui rentre dans le budget d'inférence tout en minimisant le nombre de jetons visuels - souvent à un seul jeton. Alors que la littérature sur la réduction des jetons s'est principalement concentrée sur le maintien des performances du modèle de base en réduisant modestement le nombre de jetons (par exemple, 5 à 10 fois), nos résultats indiquent que le régime d'inférence optimal en termes de calcul nécessite d'opérer sous des ratios de compression de jetons encore plus élevés. Sur la base de ces observations, nous entreprenons quelques premières étapes vers le développement d'approches adaptées aux paramètres de compression de jetons élevés. Le code est disponible sur https://github.com/locuslab/llava-token-compression.
English
Vision Language Models (VLMs) have demonstrated strong capabilities across
various visual understanding and reasoning tasks. However, their real-world
deployment is often constrained by high latency during inference due to
substantial compute required to process the large number of input tokens
(predominantly from the image) by the LLM. To reduce inference costs, one can
either downsize the LLM or reduce the number of input image-tokens, the latter
of which has been the focus of many recent works around token compression.
However, it is unclear what the optimal trade-off is, as both the factors
directly affect the VLM performance. We first characterize this optimal
trade-off between the number of visual tokens and LLM parameters by
establishing scaling laws that capture variations in performance with these two
factors. Our results reveal a surprising trend: for visual reasoning tasks, the
inference-optimal behavior in VLMs, i.e., minimum downstream error at any given
fixed inference compute, is achieved when using the largest LLM that fits
within the inference budget while minimizing visual token count - often to a
single token. While the token reduction literature has mainly focused on
maintaining base model performance by modestly reducing the token count (e.g.,
5-10times), our results indicate that the compute-optimal inference regime
requires operating under even higher token compression ratios. Based on these
insights, we take some initial steps towards building approaches tailored for
high token compression settings. Code is available at
https://github.com/locuslab/llava-token-compression.Summary
AI-Generated Summary