VideoLLaMA 3: Frontier Multimodale Grundlagenmodelle für die Bild- und Videoverarbeitung
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
January 22, 2025
Autoren: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
cs.AI
Zusammenfassung
In diesem Paper schlagen wir VideoLLaMA3 vor, ein fortschrittliches multimodales Grundlagenmodell für die Bild- und Videoverarbeitung. Die Kern-Designphilosophie von VideoLLaMA3 ist visionzentriert. Die Bedeutung von "visionzentriert" ist zweigleisig: das visionzentrierte Trainingsparadigma und das visionzentrierte Framework-Design. Der Schlüsselerkenntnis unseres visionzentrierten Trainingsparadigmas ist, dass hochwertige Bild-Text-Daten sowohl für die Bild- als auch für die Videoverarbeitung entscheidend sind. Anstatt umfangreiche Video-Text-Datensätze vorzubereiten, konzentrieren wir uns auf den Aufbau von groß angelegten und hochwertigen Bild-Text-Datensätzen. VideoLLaMA3 durchläuft vier Trainingsphasen: 1) die visionzentrierte Ausrichtungsphase, die den Vision-Encoder und Projektor vorbereitet; 2) die vision-sprachliche Vorabstufe, die den Vision-Encoder, Projektor und LLM mit groß angelegten Bild-Text-Daten unterschiedlicher Typen (einschließlich Szenenbildern, Dokumenten, Diagrammen) sowie reinen Textdaten gemeinsam abstimmt; 3) die Mehrfachaufgabenfeinabstimmung, die Bild-Text-SFT-Daten für nachgelagerte Aufgaben und Video-Text-Daten zur Grundlage für die Videoverarbeitung einbezieht; 4) die videozentrierte Feinabstimmung, die die Fähigkeiten des Modells in der Videoverarbeitung weiter verbessert. In Bezug auf das Framework-Design wird der vortrainierte Vision-Encoder angepasst, um Bilder unterschiedlicher Größen in Vision-Token mit entsprechenden Nummern anstatt einer festen Anzahl von Tokens zu kodieren, um feingranulare Details in Bildern besser erfassen zu können. Für Videoeingaben reduzieren wir die Anzahl der Vision-Tokens entsprechend ihrer Ähnlichkeit, sodass die Repräsentation von Videos präziser und kompakter wird. Dank der visionzentrierten Designs erzielt VideoLLaMA3 überzeugende Leistungen in Bild- und Videoverarbeitungs-Benchmarks.
English
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation
model for image and video understanding. The core design philosophy of
VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the
vision-centric training paradigm and vision-centric framework design. The key
insight of our vision-centric training paradigm is that high-quality image-text
data is crucial for both image and video understanding. Instead of preparing
massive video-text datasets, we focus on constructing large-scale and
high-quality image-text datasets. VideoLLaMA3 has four training stages: 1)
vision-centric alignment stage, which warms up the vision encoder and
projector; 2) vision-language pretraining stage, which jointly tunes the vision
encoder, projector, and LLM with large-scale image-text data covering multiple
types (including scene images, documents, charts) as well as text-only data. 3)
multi-task fine-tuning stage, which incorporates image-text SFT data for
downstream tasks and video-text data to establish a foundation for video
understanding. 4) video-centric fine-tuning, which further improves the model's
capability in video understanding. As for the framework design, to better
capture fine-grained details in images, the pretrained vision encoder is
adapted to encode images of varying sizes into vision tokens with corresponding
numbers, rather than a fixed number of tokens. For video inputs, we reduce the
number of vision tokens according to their similarity so that the
representation of videos will be more precise and compact. Benefit from
vision-centric designs, VideoLLaMA3 achieves compelling performances in both
image and video understanding benchmarks.Summary
AI-Generated Summary