xGen-MM-Vid (BLIP-3-비디오): 비디오를 표현하기 위해 32개의 토큰만 필요합니다 심지어 VLMs에서

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

October 21, 2024
저자: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
cs.AI

초록

우리는 xGen-MM-Vid (BLIP-3-Video)을 제시합니다: 비디오를 위한 다중 모달 언어 모델로, 특히 여러 프레임에 걸쳐 시간 정보를 효율적으로 포착하도록 특별히 설계되었습니다. BLIP-3-Video는 '시간 인코더'를 활용하는데, 이는 전통적인 시각 토크나이저에 추가되어 여러 프레임에 걸친 토큰 시퀀스를 간결한 시각적 토큰 집합으로 매핑합니다. 이를 통해 BLIP3-Video는 경쟁 모델들보다 훨씬 적은 시각적 토큰을 사용할 수 있습니다 (예: 32 대 4608 토큰). 우리는 학습 가능한 시공간 풀링뿐만 아니라 Token Turing Machines과 같은 순차 모델과 같은 다양한 유형의 시간 인코더를 탐구합니다. 실험적으로 BLIP-3-Video가 훨씬 큰 최첨단 모델들 (예: 34B)과 비교할 만한 비디오 질문 응답 정확도를 달성하는 것을 확인하며, 훨씬 작고 (즉, 4B) 시각적 토큰을 더 적게 사용하여 더 효율적입니다. 프로젝트 웹사이트는 다음과 같습니다: https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
English
We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for videos, particularly designed to efficiently capture temporal information over multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in addition to the conventional visual tokenizer, which maps a sequence of tokens over multiple frames into a compact set of visual tokens. This enables BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32 vs. 4608 tokens). We explore different types of temporal encoders, including learnable spatio-temporal pooling as well as sequential models like Token Turing Machines. We experimentally confirm that BLIP-3-Video obtains video question-answering accuracies comparable to much larger state-of-the-art models (e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using fewer visual tokens. The project website is at https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

Summary

AI-Generated Summary

PDF152November 16, 2024