xGen-MM-Vid (BLIP-3-Video): Je hebt slechts 32 tokens nodig om een video te vertegenwoordigen, zelfs in VLM's.

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

October 21, 2024
Auteurs: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
cs.AI

Samenvatting

We presenteren xGen-MM-Vid (BLIP-3-Video): een multimodaal taalmodel voor video's, speciaal ontworpen om efficiënt temporele informatie over meerdere frames vast te leggen. BLIP-3-Video maakt gebruik van de 'temporale encoder' naast de conventionele visuele tokenizer, die een reeks tokens over meerdere frames in een compacte set visuele tokens in kaart brengt. Dit stelt BLIP3-Video in staat om veel minder visuele tokens te gebruiken dan zijn concurrerende modellen (bijv. 32 vs. 4608 tokens). We verkennen verschillende soorten temporale encoders, waaronder leerbaar spatio-temporeel poolen en sequentiële modellen zoals Token Turing Machines. We bevestigen experimenteel dat BLIP-3-Video video-vraag-antwoordnauwkeurigheden behaalt die vergelijkbaar zijn met veel grotere state-of-the-art modellen (bijv. 34B), terwijl het veel kleiner is (d.w.z. 4B) en efficiënter door minder visuele tokens te gebruiken. De projectwebsite is te vinden op https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
English
We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for videos, particularly designed to efficiently capture temporal information over multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in addition to the conventional visual tokenizer, which maps a sequence of tokens over multiple frames into a compact set of visual tokens. This enables BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32 vs. 4608 tokens). We explore different types of temporal encoders, including learnable spatio-temporal pooling as well as sequential models like Token Turing Machines. We experimentally confirm that BLIP-3-Video obtains video question-answering accuracies comparable to much larger state-of-the-art models (e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using fewer visual tokens. The project website is at https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

Summary

AI-Generated Summary

PDF152November 16, 2024