Pré-entraînement autoregressif multimodal de grands encodeurs de vision
Multimodal Autoregressive Pre-training of Large Vision Encoders
November 21, 2024
Auteurs: Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
cs.AI
Résumé
Nous introduisons une nouvelle méthode pour la pré-entraînement des codeurs de vision à grande échelle. En nous appuyant sur les récents progrès dans la pré-entraînement autorégressif des modèles de vision, nous étendons ce cadre à un environnement multimodal, c'est-à-dire, des images et du texte. Dans cet article, nous présentons AIMV2, une famille de codeurs de vision généralistes caractérisée par un processus de pré-entraînement simple, une extensibilité et des performances remarquables sur une gamme de tâches ultérieures. Cela est réalisé en associant le codeur de vision à un décodeur multimodal qui génère de manière autorégressive des fragments d'image bruts et des jetons de texte. Nos codeurs excellent non seulement dans les évaluations multimodales mais aussi dans les référentiels de vision tels que la localisation, l'ancrage et la classification. Notamment, notre codeur AIMV2-3B atteint une précision de 89,5% sur ImageNet-1k avec un tronc figé. De plus, AIMV2 surpasse systématiquement les modèles de contraste de pointe (par exemple, CLIP, SigLIP) dans la compréhension multimodale de l'image dans des contextes divers.
English
We introduce a novel method for pre-training of large-scale vision encoders.
Building on recent advancements in autoregressive pre-training of vision
models, we extend this framework to a multimodal setting, i.e., images and
text. In this paper, we present AIMV2, a family of generalist vision encoders
characterized by a straightforward pre-training process, scalability, and
remarkable performance across a range of downstream tasks. This is achieved by
pairing the vision encoder with a multimodal decoder that autoregressively
generates raw image patches and text tokens. Our encoders excel not only in
multimodal evaluations but also in vision benchmarks such as localization,
grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5%
accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently
outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in
multimodal image understanding across diverse settings.Summary
AI-Generated Summary