Pre-addestramento autoregressivo multimodale di grandi codificatori visivi

Multimodal Autoregressive Pre-training of Large Vision Encoders

November 21, 2024
Autori: Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
cs.AI

Abstract

Introduciamo un nuovo metodo per il pre-addestramento di encoder visivi su larga scala. Basandoci sui recenti progressi nel pre-addestramento autoregressivo di modelli visivi, estendiamo questo framework a un contesto multimodale, cioè immagini e testo. In questo articolo, presentiamo AIMV2, una famiglia di encoder visivi generalisti caratterizzati da un processo di pre-addestramento diretto, scalabilità e prestazioni notevoli su una serie di compiti successivi. Ciò è ottenuto accoppiando l'encoder visivo con un decoder multimodale che genera in modo autoregressivo patch di immagini grezze e token di testo. I nostri encoder eccellono non solo nelle valutazioni multimodali ma anche nei benchmark visivi come localizzazione, grounding e classificazione. In particolare, il nostro encoder AIMV2-3B raggiunge un'accuratezza del 89,5% su ImageNet-1k con un tronco congelato. Inoltre, AIMV2 supera costantemente i modelli contrastivi all'avanguardia (ad esempio, CLIP, SigLIP) nella comprensione multimodale delle immagini in contesti diversi.
English
We introduce a novel method for pre-training of large-scale vision encoders. Building on recent advancements in autoregressive pre-training of vision models, we extend this framework to a multimodal setting, i.e., images and text. In this paper, we present AIMV2, a family of generalist vision encoders characterized by a straightforward pre-training process, scalability, and remarkable performance across a range of downstream tasks. This is achieved by pairing the vision encoder with a multimodal decoder that autoregressively generates raw image patches and text tokens. Our encoders excel not only in multimodal evaluations but also in vision benchmarks such as localization, grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5% accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in multimodal image understanding across diverse settings.

Summary

AI-Generated Summary

PDF433November 22, 2024