xGen-MM-Vid (BLIP-3-Video): Es sind nur 32 Tokens erforderlich, um ein Video selbst in VLMs darzustellen.

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

October 21, 2024
Autoren: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
cs.AI

Zusammenfassung

Wir präsentieren xGen-MM-Vid (BLIP-3-Video): ein multimodales Sprachmodell für Videos, das speziell darauf ausgelegt ist, zeitliche Informationen über mehrere Frames effizient zu erfassen. BLIP-3-Video nutzt den 'zeitlichen Encoder' zusätzlich zum herkömmlichen visuellen Tokenizer, der eine Sequenz von Tokens über mehrere Frames in eine kompakte Menge von visuellen Tokens abbildet. Dadurch kann BLIP3-Video wesentlich weniger visuelle Tokens verwenden als konkurrierende Modelle (z. B. 32 gegenüber 4608 Tokens). Wir untersuchen verschiedene Arten von zeitlichen Encodern, einschließlich erlernbarer spatio-temporaler Pooling-Methoden sowie sequenzieller Modelle wie Token Turing Machines. Experimentell bestätigen wir, dass BLIP-3-Video Frage-Antwort-Genauigkeiten bei Videos erreicht, die mit wesentlich größeren state-of-the-art-Modellen vergleichbar sind (z. B. 34B), während es kleiner (d. h. 4B) und effizienter ist, indem es weniger visuelle Tokens verwendet. Die Projektwebsite befindet sich unter https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html.
English
We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for videos, particularly designed to efficiently capture temporal information over multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in addition to the conventional visual tokenizer, which maps a sequence of tokens over multiple frames into a compact set of visual tokens. This enables BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32 vs. 4608 tokens). We explore different types of temporal encoders, including learnable spatio-temporal pooling as well as sequential models like Token Turing Machines. We experimentally confirm that BLIP-3-Video obtains video question-answering accuracies comparable to much larger state-of-the-art models (e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using fewer visual tokens. The project website is at https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

Summary

AI-Generated Summary

PDF152November 16, 2024