xGen-MM-Vid (BLIP-3-비디오): 비디오를 표현하기 위해 32개의 토큰만 필요합니다 심지어 VLMs에서
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs
October 21, 2024
저자: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles
cs.AI
초록
우리는 xGen-MM-Vid (BLIP-3-Video)을 제시합니다: 비디오를 위한 다중 모달 언어 모델로, 특히 여러 프레임에 걸쳐 시간 정보를 효율적으로 포착하도록 특별히 설계되었습니다. BLIP-3-Video는 '시간 인코더'를 활용하는데, 이는 전통적인 시각 토크나이저에 추가되어 여러 프레임에 걸친 토큰 시퀀스를 간결한 시각적 토큰 집합으로 매핑합니다. 이를 통해 BLIP3-Video는 경쟁 모델들보다 훨씬 적은 시각적 토큰을 사용할 수 있습니다 (예: 32 대 4608 토큰). 우리는 학습 가능한 시공간 풀링뿐만 아니라 Token Turing Machines과 같은 순차 모델과 같은 다양한 유형의 시간 인코더를 탐구합니다. 실험적으로 BLIP-3-Video가 훨씬 큰 최첨단 모델들 (예: 34B)과 비교할 만한 비디오 질문 응답 정확도를 달성하는 것을 확인하며, 훨씬 작고 (즉, 4B) 시각적 토큰을 더 적게 사용하여 더 효율적입니다. 프로젝트 웹사이트는 다음과 같습니다: https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
English
We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for
videos, particularly designed to efficiently capture temporal information over
multiple frames. BLIP-3-Video takes advantage of the 'temporal encoder' in
addition to the conventional visual tokenizer, which maps a sequence of tokens
over multiple frames into a compact set of visual tokens. This enables
BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32
vs. 4608 tokens). We explore different types of temporal encoders, including
learnable spatio-temporal pooling as well as sequential models like Token
Turing Machines. We experimentally confirm that BLIP-3-Video obtains video
question-answering accuracies comparable to much larger state-of-the-art models
(e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using
fewer visual tokens. The project website is at
https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.htmlSummary
AI-Generated Summary