VideoLLaMA 3 : Modèles Fondamentaux Multimodaux de Pointe pour la Compréhension d'Images et de Vidéos
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
January 22, 2025
Auteurs: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
cs.AI
Résumé
Dans cet article, nous proposons VideoLLaMA3, un modèle fondamental multimodal plus avancé pour la compréhension des images et des vidéos. La philosophie de conception centrale de VideoLLaMA3 est centrée sur la vision. La signification de "centrée sur la vision" est double : le paradigme d'entraînement centré sur la vision et la conception du cadre centré sur la vision. L'observation clé de notre paradigme d'entraînement centré sur la vision est que des données image-texte de haute qualité sont cruciales pour la compréhension des images et des vidéos. Au lieu de préparer d'énormes ensembles de données vidéo-texte, nous nous concentrons sur la construction d'ensembles de données image-texte à grande échelle et de haute qualité. VideoLLaMA3 comporte quatre étapes d'entraînement : 1) étape d'alignement centrée sur la vision, qui prépare l'encodeur et le projecteur de vision ; 2) étape de pré-entraînement vision-langage, qui ajuste conjointement l'encodeur de vision, le projecteur et le LLM avec des données image-texte à grande échelle couvrant plusieurs types (y compris des images de scènes, des documents, des graphiques) ainsi que des données texte uniquement. 3) étape de fine-tuning multi-tâches, qui intègre des données SFT image-texte pour des tâches ultérieures et des données vidéo-texte pour établir une base pour la compréhension des vidéos. 4) fine-tuning centré sur la vidéo, qui améliore davantage la capacité du modèle en matière de compréhension des vidéos. En ce qui concerne la conception du cadre, pour capturer de manière plus précise les détails fins des images, l'encodeur de vision pré-entraîné est adapté pour encoder des images de tailles variables en jetons de vision avec des nombres correspondants, plutôt qu'un nombre fixe de jetons. Pour les entrées vidéo, nous réduisons le nombre de jetons de vision en fonction de leur similarité afin que la représentation des vidéos soit plus précise et compacte. Grâce aux conceptions centrées sur la vision, VideoLLaMA3 obtient des performances convaincantes dans les référentiels de compréhension des images et des vidéos.
English
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation
model for image and video understanding. The core design philosophy of
VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the
vision-centric training paradigm and vision-centric framework design. The key
insight of our vision-centric training paradigm is that high-quality image-text
data is crucial for both image and video understanding. Instead of preparing
massive video-text datasets, we focus on constructing large-scale and
high-quality image-text datasets. VideoLLaMA3 has four training stages: 1)
vision-centric alignment stage, which warms up the vision encoder and
projector; 2) vision-language pretraining stage, which jointly tunes the vision
encoder, projector, and LLM with large-scale image-text data covering multiple
types (including scene images, documents, charts) as well as text-only data. 3)
multi-task fine-tuning stage, which incorporates image-text SFT data for
downstream tasks and video-text data to establish a foundation for video
understanding. 4) video-centric fine-tuning, which further improves the model's
capability in video understanding. As for the framework design, to better
capture fine-grained details in images, the pretrained vision encoder is
adapted to encode images of varying sizes into vision tokens with corresponding
numbers, rather than a fixed number of tokens. For video inputs, we reduce the
number of vision tokens according to their similarity so that the
representation of videos will be more precise and compact. Benefit from
vision-centric designs, VideoLLaMA3 achieves compelling performances in both
image and video understanding benchmarks.Summary
AI-Generated Summary