Multimodales autoregressives Vor-Training großer Vision-Encoder
Multimodal Autoregressive Pre-training of Large Vision Encoders
November 21, 2024
Autoren: Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
cs.AI
Zusammenfassung
Wir stellen eine neuartige Methode zur Vorabtrainierung von groß angelegten Bildcodierern vor. Aufbauend auf den jüngsten Fortschritten bei der autoregressiven Vorabtrainierung von Bildmodellen erweitern wir dieses Framework auf eine multimodale Umgebung, d.h. Bilder und Text. In diesem Artikel präsentieren wir AIMV2, eine Familie von generalistischen Bildcodierern, die sich durch einen unkomplizierten Vorabtrainierungsprozess, Skalierbarkeit und bemerkenswerte Leistung über eine Vielzahl von nachgelagerten Aufgaben auszeichnen. Dies wird durch die Kombination des Bildcodierers mit einem multimodalen Decoder erreicht, der autoregressiv Rohbild-Patches und Text-Token generiert. Unsere Codierer zeichnen sich nicht nur bei multimodalen Bewertungen aus, sondern auch bei Bildbenchmarks wie Lokalisierung, Verankerung und Klassifizierung. Bemerkenswerterweise erreicht unser AIMV2-3B-Codierer eine Genauigkeit von 89,5% auf ImageNet-1k mit einem eingefrorenen Stamm. Darüber hinaus übertrifft AIMV2 konsistent modernste kontrastive Modelle (z.B. CLIP, SigLIP) in der multimodalen Bildverarbeitung in vielfältigen Umgebungen.
English
We introduce a novel method for pre-training of large-scale vision encoders.
Building on recent advancements in autoregressive pre-training of vision
models, we extend this framework to a multimodal setting, i.e., images and
text. In this paper, we present AIMV2, a family of generalist vision encoders
characterized by a straightforward pre-training process, scalability, and
remarkable performance across a range of downstream tasks. This is achieved by
pairing the vision encoder with a multimodal decoder that autoregressively
generates raw image patches and text tokens. Our encoders excel not only in
multimodal evaluations but also in vision benchmarks such as localization,
grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5%
accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently
outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in
multimodal image understanding across diverse settings.Summary
AI-Generated Summary