Scalabilità dell'Apprendimento di Rappresentazioni Visive Senza Linguaggio
Scaling Language-Free Visual Representation Learning
April 1, 2025
Autori: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
cs.AI
Abstract
L'apprendimento visivo auto-supervisionato (SSL) attualmente ottiene prestazioni inferiori rispetto al Pretraining Contrastivo Linguaggio-Immagine (CLIP) in contesti multimodali come il Visual Question Answering (VQA). Questo divario multimodale è spesso attribuito alla semantica introdotta dalla supervisione linguistica, nonostante i modelli SSL visivi e CLIP siano spesso addestrati su dati diversi. In questo lavoro, ci poniamo la domanda: "Gli approcci visivi auto-supervisionati sono in ritardo rispetto a CLIP a causa della mancanza di supervisione linguistica o delle differenze nei dati di addestramento?" Studiamo questa questione addestrando sia modelli SSL visivi che CLIP sugli stessi dati MetaCLIP e utilizzando il VQA come banco di prova diversificato per gli encoder visivi. In questa configurazione controllata, i modelli SSL visivi scalano meglio dei modelli CLIP in termini di dati e capacità del modello, e le prestazioni SSL visive non si saturano nemmeno dopo aver scalato fino a 7 miliardi di parametri. Di conseguenza, osserviamo che i metodi SSL visivi raggiungono prestazioni pari a quelle di CLIP su un'ampia gamma di benchmark VQA e classici di visione. Questi risultati dimostrano che l'SSL visivo puro può eguagliare il pretraining visivo supervisionato dal linguaggio su larga scala, aprendo nuove opportunità per l'apprendimento di rappresentazioni centrate sulla visione.
English
Visual Self-Supervised Learning (SSL) currently underperforms Contrastive
Language-Image Pretraining (CLIP) in multimodal settings such as Visual
Question Answering (VQA). This multimodal gap is often attributed to the
semantics introduced by language supervision, even though visual SSL and CLIP
models are often trained on different data. In this work, we ask the question:
"Do visual self-supervised approaches lag behind CLIP due to the lack of
language supervision, or differences in the training data?" We study this
question by training both visual SSL and CLIP models on the same MetaCLIP data,
and leveraging VQA as a diverse testbed for vision encoders. In this controlled
setup, visual SSL models scale better than CLIP models in terms of data and
model capacity, and visual SSL performance does not saturate even after scaling
up to 7B parameters. Consequently, we observe visual SSL methods achieve
CLIP-level performance on a wide range of VQA and classic vision benchmarks.
These findings demonstrate that pure visual SSL can match language-supervised
visual pretraining at scale, opening new opportunities for vision-centric
representation learning.Summary
AI-Generated Summary