xGen-MM-Vid (BLIP-3-Video): Je hebt slechts 32 tokens nodig om een video te vertegenwoordigen, zelfs in VLM's.
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs
October 21, 2024
Auteurs: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
cs.AI
Samenvatting
We presenteren xGen-MM-Vid (BLIP-3-Video): een multimodaal taalmodel voor video's, speciaal ontworpen om efficiënt temporele informatie over meerdere frames vast te leggen. BLIP-3-Video maakt gebruik van de 'temporale encoder' naast de conventionele visuele tokenizer, die een reeks tokens over meerdere frames in een compacte set visuele tokens in kaart brengt. Dit stelt BLIP3-Video in staat om veel minder visuele tokens te gebruiken dan zijn concurrerende modellen (bijv. 32 vs. 4608 tokens). We verkennen verschillende soorten temporale encoders, waaronder leerbaar spatio-temporeel poolen en sequentiële modellen zoals Token Turing Machines. We bevestigen experimenteel dat BLIP-3-Video video-vraag-antwoordnauwkeurigheden behaalt die vergelijkbaar zijn met veel grotere state-of-the-art modellen (bijv. 34B), terwijl het veel kleiner is (d.w.z. 4B) en efficiënter door minder visuele tokens te gebruiken. De projectwebsite is te vinden op https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
English
We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for
videos, particularly designed to efficiently capture temporal information over
multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in
addition to the conventional visual tokenizer, which maps a sequence of tokens
over multiple frames into a compact set of visual tokens. This enables
BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32
vs. 4608 tokens). We explore different types of temporal encoders, including
learnable spatio-temporal pooling as well as sequential models like Token
Turing Machines. We experimentally confirm that BLIP-3-Video obtains video
question-answering accuracies comparable to much larger state-of-the-art models
(e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using
fewer visual tokens. The project website is at
https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.htmlSummary
AI-Generated Summary