Istruzioni Esplicative: Verso la Comprensione delle Attività di Visione Unificata e la Generalizzazione a Zero-shot

Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

December 24, 2024
Autori: Yang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
cs.AI

Abstract

La Computer Vision (CV) deve ancora raggiungere pienamente la generalizzazione del compito zero-shot osservata nel Natural Language Processing (NLP), nonostante segua molti dei traguardi stabiliti nel NLP, come i grandi modelli trasformatore, l'ampia preformazione e il paradigma dell'autoregressione, tra gli altri. In questo articolo, esploriamo l'idea che la CV adotti definizioni di compiti discrete e terminologiche (ad esempio, "segmentazione dell'immagine"), che potrebbero rappresentare un ostacolo chiave alla generalizzazione del compito zero-shot. La nostra ipotesi è che senza comprendere veramente i compiti precedentemente visti - a causa di queste definizioni terminologiche - i modelli profondi faticano a generalizzare a compiti nuovi. Per verificare ciò, introduciamo le Istruzioni Esplicative, che forniscono un modo intuitivo per definire gli obiettivi del compito di CV attraverso dettagliate trasformazioni linguistiche dalle immagini di input alle uscite. Creiamo un dataset su larga scala composto da 12 milioni di triplette "input dell'immagine alle istruzioni esplicative all'output" e addestriamo un modello visione-linguaggio basato sull'autoregressione (VLM basato su AR) che prende sia immagini che istruzioni esplicative come input. Imparando a seguire queste istruzioni, il VLM basato su AR raggiunge capacità zero-shot a livello di istruzione per compiti precedentemente visti e dimostra una forte generalizzazione zero-shot per compiti di CV non visti. Il codice e il dataset saranno disponibili apertamente sul nostro repository GitHub.
English
Computer Vision (CV) has yet to fully achieve the zero-shot task generalization observed in Natural Language Processing (NLP), despite following many of the milestones established in NLP, such as large transformer models, extensive pre-training, and the auto-regression paradigm, among others. In this paper, we explore the idea that CV adopts discrete and terminological task definitions (\eg, ``image segmentation''), which may be a key barrier to zero-shot task generalization. Our hypothesis is that without truly understanding previously-seen tasks--due to these terminological definitions--deep models struggle to generalize to novel tasks. To verify this, we introduce Explanatory Instructions, which provide an intuitive way to define CV task objectives through detailed linguistic transformations from input images to outputs. We create a large-scale dataset comprising 12 million ``image input to explanatory instruction to output'' triplets, and train an auto-regressive-based vision-language model (AR-based VLM) that takes both images and explanatory instructions as input. By learning to follow these instructions, the AR-based VLM achieves instruction-level zero-shot capabilities for previously-seen tasks and demonstrates strong zero-shot generalization for unseen CV tasks. Code and dataset will be openly available on our GitHub repository.

Summary

AI-Generated Summary

PDF702December 31, 2024