비디오LLaMA 3: 이미지와 비디오 이해를 위한 프론티어 멀티모달 기반 모델
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
January 22, 2025
저자: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
cs.AI
초록
본 논문에서는 이미지 및 비디오 이해를 위한 더욱 고급화된 다중 모달 기반 모델인 VideoLLaMA3을 제안합니다. VideoLLaMA3의 핵심 설계 철학은 시각 중심입니다. "시각 중심"의 의미는 두 가지로 나뉩니다: 시각 중심 훈련 패러다임과 시각 중심 프레임워크 설계입니다. 우리의 시각 중심 훈련 패러다임의 주요 통찰은 고품질 이미지-텍스트 데이터가 이미지 및 비디오 이해에 중요하다는 것입니다. 대규모 비디오-텍스트 데이터셋을 준비하는 대신, 대규모이면서 고품질의 이미지-텍스트 데이터셋을 구축하는 데 초점을 맞춥니다. VideoLLaMA3는 네 가지 훈련 단계를 갖고 있습니다: 1) 시각 중심 정렬 단계는 시각 인코더와 프로젝터를 사전에 준비합니다. 2) 시각-언어 사전 훈련 단계는 다양한 유형(장면 이미지, 문서, 차트 포함)의 대규모 이미지-텍스트 데이터와 텍스트 데이터를 활용하여 시각 인코더, 프로젝터, 그리고 LLM을 함께 튜닝합니다. 3) 다중 작업 미세 튜닝 단계는 이미지-텍스트 SFT 데이터를 포함하여 하위 작업에 대비하고 비디오-텍스트 데이터를 활용하여 비디오 이해의 기반을 확립합니다. 4) 비디오 중심 미세 튜닝은 모델의 비디오 이해 능력을 더욱 향상시킵니다. 프레임워크 설계 측면에서, 이미 사전 훈련된 시각 인코더는 이미지의 세부 정보를 더 잘 포착하기 위해 다양한 크기의 이미지를 해당하는 수의 시각 토큰으로 인코딩하도록 조정됩니다. 비디오 입력의 경우, 유사성에 따라 시각 토큰 수를 줄여 비디오 표현이 보다 정확하고 간결해지도록 합니다. 시각 중심 설계의 장점을 살려, VideoLLaMA3은 이미지 및 비디오 이해 벤치마크에서 탁월한 성능을 달성합니다.
English
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation
model for image and video understanding. The core design philosophy of
VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the
vision-centric training paradigm and vision-centric framework design. The key
insight of our vision-centric training paradigm is that high-quality image-text
data is crucial for both image and video understanding. Instead of preparing
massive video-text datasets, we focus on constructing large-scale and
high-quality image-text datasets. VideoLLaMA3 has four training stages: 1)
vision-centric alignment stage, which warms up the vision encoder and
projector; 2) vision-language pretraining stage, which jointly tunes the vision
encoder, projector, and LLM with large-scale image-text data covering multiple
types (including scene images, documents, charts) as well as text-only data. 3)
multi-task fine-tuning stage, which incorporates image-text SFT data for
downstream tasks and video-text data to establish a foundation for video
understanding. 4) video-centric fine-tuning, which further improves the model's
capability in video understanding. As for the framework design, to better
capture fine-grained details in images, the pretrained vision encoder is
adapted to encode images of varying sizes into vision tokens with corresponding
numbers, rather than a fixed number of tokens. For video inputs, we reduce the
number of vision tokens according to their similarity so that the
representation of videos will be more precise and compact. Benefit from
vision-centric designs, VideoLLaMA3 achieves compelling performances in both
image and video understanding benchmarks.Summary
AI-Generated Summary