Multimodales autoregressives Vor-Training großer Vision-Encoder

Zusammenfassung

Wir stellen eine neuartige Methode zur Vorabtrainierung von groß angelegten Bildcodierern vor. Aufbauend auf den jüngsten Fortschritten bei der autoregressiven Vorabtrainierung von Bildmodellen erweitern wir dieses Framework auf eine multimodale Umgebung, d.h. Bilder und Text. In diesem Artikel präsentieren wir AIMV2, eine Familie von generalistischen Bildcodierern, die sich durch einen unkomplizierten Vorabtrainierungsprozess, Skalierbarkeit und bemerkenswerte Leistung über eine Vielzahl von nachgelagerten Aufgaben auszeichnen. Dies wird durch die Kombination des Bildcodierers mit einem multimodalen Decoder erreicht, der autoregressiv Rohbild-Patches und Text-Token generiert. Unsere Codierer zeichnen sich nicht nur bei multimodalen Bewertungen aus, sondern auch bei Bildbenchmarks wie Lokalisierung, Verankerung und Klassifizierung. Bemerkenswerterweise erreicht unser AIMV2-3B-Codierer eine Genauigkeit von 89,5% auf ImageNet-1k mit einem eingefrorenen Stamm. Darüber hinaus übertrifft AIMV2 konsistent modernste kontrastive Modelle (z.B. CLIP, SigLIP) in der multimodalen Bildverarbeitung in vielfältigen Umgebungen.

English

We introduce a novel method for pre-training of large-scale vision encoders. Building on recent advancements in autoregressive pre-training of vision models, we extend this framework to a multimodal setting, i.e., images and text. In this paper, we present AIMV2, a family of generalist vision encoders characterized by a straightforward pre-training process, scalability, and remarkable performance across a range of downstream tasks. This is achieved by pairing the vision encoder with a multimodal decoder that autoregressively generates raw image patches and text tokens. Our encoders excel not only in multimodal evaluations but also in vision benchmarks such as localization, grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5% accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in multimodal image understanding across diverse settings.

Multimodales autoregressives Vor-Training großer Vision-Encoder

Multimodal Autoregressive Pre-training of Large Vision Encoders

Zusammenfassung

Summary

Support