VideoLLaMA 3: Frontier Multimodale Fundamentele Modellen voor Beeld en Video Begrip

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

January 22, 2025
Auteurs: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
cs.AI

Samenvatting

In dit artikel stellen we VideoLLaMA3 voor, een geavanceerder multimodaal basismodel voor het begrijpen van afbeeldingen en video's. De kernontwerpfilosofie van VideoLLaMA3 is visie-gecentreerd. De betekenis van "visie-gecentreerd" is tweeledig: het visie-gecentreerde trainingsparadigma en het visie-gecentreerde raamwerkontwerp. Het belangrijkste inzicht van ons visie-gecentreerde trainingsparadigma is dat hoogwaardige beeld-tekst data cruciaal is voor zowel het begrijpen van afbeeldingen als video's. In plaats van massale video-tekst datasets voor te bereiden, richten we ons op het construeren van grootschalige en hoogwaardige beeld-tekst datasets. VideoLLaMA3 kent vier trainingsfasen: 1) visie-gecentreerde uitlijningsfase, die de visie-encoder en projector voorbereidt; 2) visie-taal vooraf trainingsfase, die gezamenlijk de visie-encoder, projector en LLM afstemt met grootschalige beeld-tekst data die meerdere soorten bestrijkt (inclusief scèneafbeeldingen, documenten, grafieken) evenals alleen tekst data. 3) multi-taak fijnafstemmingsfase, die beeld-tekst SFT data voor downstream taken incorporeert en video-tekst data om een basis voor video begrip vast te stellen. 4) video-gecentreerde fijnafstemmingsfase, die de capaciteit van het model in video begrip verder verbetert. Wat betreft het raamwerkontwerp, om fijnmazige details in afbeeldingen beter vast te leggen, wordt de vooraf getrainde visie-encoder aangepast om afbeeldingen van verschillende groottes te coderen in visie-tokens met overeenkomstige aantallen, in plaats van een vast aantal tokens. Voor video-invoer verminderen we het aantal visie-tokens op basis van hun gelijkenis zodat de representatie van video's preciezer en compacter zal zijn. Dankzij visie-gecentreerde ontwerpen behaalt VideoLLaMA3 overtuigende prestaties in zowel afbeeldings- als video-begrip benchmarks.
English
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation model for image and video understanding. The core design philosophy of VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the vision-centric training paradigm and vision-centric framework design. The key insight of our vision-centric training paradigm is that high-quality image-text data is crucial for both image and video understanding. Instead of preparing massive video-text datasets, we focus on constructing large-scale and high-quality image-text datasets. VideoLLaMA3 has four training stages: 1) vision-centric alignment stage, which warms up the vision encoder and projector; 2) vision-language pretraining stage, which jointly tunes the vision encoder, projector, and LLM with large-scale image-text data covering multiple types (including scene images, documents, charts) as well as text-only data. 3) multi-task fine-tuning stage, which incorporates image-text SFT data for downstream tasks and video-text data to establish a foundation for video understanding. 4) video-centric fine-tuning, which further improves the model's capability in video understanding. As for the framework design, to better capture fine-grained details in images, the pretrained vision encoder is adapted to encode images of varying sizes into vision tokens with corresponding numbers, rather than a fixed number of tokens. For video inputs, we reduce the number of vision tokens according to their similarity so that the representation of videos will be more precise and compact. Benefit from vision-centric designs, VideoLLaMA3 achieves compelling performances in both image and video understanding benchmarks.

Summary

AI-Generated Summary

PDF753January 23, 2025