ChatPaper.aiChatPaper

Scalabilità dell'Apprendimento di Rappresentazioni Visive Senza Linguaggio

Scaling Language-Free Visual Representation Learning

April 1, 2025
Autori: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
cs.AI

Abstract

L'apprendimento visivo auto-supervisionato (SSL) attualmente ottiene prestazioni inferiori rispetto al Pretraining Contrastivo Linguaggio-Immagine (CLIP) in contesti multimodali come il Visual Question Answering (VQA). Questo divario multimodale è spesso attribuito alla semantica introdotta dalla supervisione linguistica, nonostante i modelli SSL visivi e CLIP siano spesso addestrati su dati diversi. In questo lavoro, ci poniamo la domanda: "Gli approcci visivi auto-supervisionati sono in ritardo rispetto a CLIP a causa della mancanza di supervisione linguistica o delle differenze nei dati di addestramento?" Studiamo questa questione addestrando sia modelli SSL visivi che CLIP sugli stessi dati MetaCLIP e utilizzando il VQA come banco di prova diversificato per gli encoder visivi. In questa configurazione controllata, i modelli SSL visivi scalano meglio dei modelli CLIP in termini di dati e capacità del modello, e le prestazioni SSL visive non si saturano nemmeno dopo aver scalato fino a 7 miliardi di parametri. Di conseguenza, osserviamo che i metodi SSL visivi raggiungono prestazioni pari a quelle di CLIP su un'ampia gamma di benchmark VQA e classici di visione. Questi risultati dimostrano che l'SSL visivo puro può eguagliare il pretraining visivo supervisionato dal linguaggio su larga scala, aprendo nuove opportunità per l'apprendimento di rappresentazioni centrate sulla visione.
English
Visual Self-Supervised Learning (SSL) currently underperforms Contrastive Language-Image Pretraining (CLIP) in multimodal settings such as Visual Question Answering (VQA). This multimodal gap is often attributed to the semantics introduced by language supervision, even though visual SSL and CLIP models are often trained on different data. In this work, we ask the question: "Do visual self-supervised approaches lag behind CLIP due to the lack of language supervision, or differences in the training data?" We study this question by training both visual SSL and CLIP models on the same MetaCLIP data, and leveraging VQA as a diverse testbed for vision encoders. In this controlled setup, visual SSL models scale better than CLIP models in terms of data and model capacity, and visual SSL performance does not saturate even after scaling up to 7B parameters. Consequently, we observe visual SSL methods achieve CLIP-level performance on a wide range of VQA and classic vision benchmarks. These findings demonstrate that pure visual SSL can match language-supervised visual pretraining at scale, opening new opportunities for vision-centric representation learning.

Summary

AI-Generated Summary

PDF264April 2, 2025