Multimodale autoregressieve voorafgaande training van grote visuele encoders
Multimodal Autoregressive Pre-training of Large Vision Encoders
November 21, 2024
Auteurs: Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
cs.AI
Samenvatting
We introduceren een nieuwe methode voor het vooraf trainen van grootschalige visuele encoders. Voortbouwend op recente ontwikkelingen in autoregressieve voorafgaande training van visuele modellen, breiden we dit kader uit naar een multimodale omgeving, d.w.z. beelden en tekst. In dit artikel presenteren we AIMV2, een familie van algemene visuele encoders gekenmerkt door een eenvoudig vooraf trainingsproces, schaalbaarheid en opmerkelijke prestaties over een reeks van downstream taken. Dit wordt bereikt door de visuele encoder te koppelen aan een multimodale decoder die autoregressief ruwe beeldpatches en teksttokens genereert. Onze encoders excelleren niet alleen in multimodale evaluaties, maar ook in visuele benchmarks zoals lokalisatie, gronding en classificatie. Opmerkelijk genoeg behaalt onze AIMV2-3B-encoder een nauwkeurigheid van 89,5% op ImageNet-1k met een bevroren stam. Bovendien presteert AIMV2 consequent beter dan state-of-the-art contrastieve modellen (bijv. CLIP, SigLIP) in multimodale beeldbegrip over diverse omgevingen.
English
We introduce a novel method for pre-training of large-scale vision encoders.
Building on recent advancements in autoregressive pre-training of vision
models, we extend this framework to a multimodal setting, i.e., images and
text. In this paper, we present AIMV2, a family of generalist vision encoders
characterized by a straightforward pre-training process, scalability, and
remarkable performance across a range of downstream tasks. This is achieved by
pairing the vision encoder with a multimodal decoder that autoregressively
generates raw image patches and text tokens. Our encoders excel not only in
multimodal evaluations but also in vision benchmarks such as localization,
grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5%
accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently
outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in
multimodal image understanding across diverse settings.Summary
AI-Generated Summary