xGen-MM-Vid (BLIP-3-Vidéo) : Vous avez seulement besoin de 32 jetons pour représenter une vidéo même dans les VLM
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs
October 21, 2024
Auteurs: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
cs.AI
Résumé
Nous présentons xGen-MM-Vid (BLIP-3-Video) : un modèle de langage multimodal pour les vidéos, spécialement conçu pour capturer efficacement les informations temporelles sur plusieurs images. BLIP-3-Video tire parti de l'« encodeur temporel » en plus du tokeniseur visuel conventionnel, qui mappe une séquence de jetons sur plusieurs images en un ensemble compact de jetons visuels. Cela permet à BLIP-3-Video d'utiliser beaucoup moins de jetons visuels que ses modèles concurrents (par exemple, 32 contre 4608 jetons). Nous explorons différents types d'encodeurs temporels, y compris des regroupements spatio-temporels apprenables ainsi que des modèles séquentiels comme les Machines à Jetons Turing. Nous confirmons expérimentalement que BLIP-3-Video obtient des précisions de questions-réponses vidéo comparables à celles de modèles de pointe beaucoup plus grands (par exemple, 34B), tout en étant beaucoup plus petit (c'est-à-dire, 4B) et plus efficace en utilisant moins de jetons visuels. Le site web du projet se trouve à l'adresse suivante : https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
English
We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for
videos, particularly designed to efficiently capture temporal information over
multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in
addition to the conventional visual tokenizer, which maps a sequence of tokens
over multiple frames into a compact set of visual tokens. This enables
BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32
vs. 4608 tokens). We explore different types of temporal encoders, including
learnable spatio-temporal pooling as well as sequential models like Token
Turing Machines. We experimentally confirm that BLIP-3-Video obtains video
question-answering accuracies comparable to much larger state-of-the-art models
(e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using
fewer visual tokens. The project website is at
https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.htmlSummary
AI-Generated Summary