설명적 지침: 통합된 시각 작업 이해와 영점 일반화에 대한 연구
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization
December 24, 2024
저자: Yang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
cs.AI
초록
컴퓨터 비전(CV)은 자연어 처리(NLP)에서 관찰되는 제로샷 작업 일반화를 완전히 달성하지 못했습니다. NLP에서 설정된 많은 이정표를 따르고 있지만, 큰 트랜스포머 모델, 방대한 사전 훈련, 그리고 자기 회귀 패러다임 등과 같은 것들을 따르고 있음에도 불구하고요. 본 논문에서는 CV가 이산적이고 용어적인 작업 정의(예: "이미지 분할")를 채택하고 있는데, 이것이 제로샷 작업 일반화에 중요한 장벽일 수 있다는 아이디어를 탐구합니다. 우리의 가설은 이러한 용어적 정의로 인해 이전에 본 작업을 실제로 이해하지 못하는 경우, 깊은 모델이 새로운 작업으로 일반화하는 데 어려움을 겪을 수 있다는 것입니다. 이를 확인하기 위해 우리는 설명적 지시사항(Explanatory Instructions)을 소개합니다. 이 지시사항은 입력 이미지로부터 출력까지의 상세한 언어적 변환을 통해 CV 작업 목표를 직관적으로 정의하는 방법을 제공합니다. 우리는 1200만 개의 "이미지 입력에서 설명적 지시사항을 거쳐 출력" 쌍으로 이루어진 대규모 데이터셋을 만들고, 이미지와 설명적 지시사항을 모두 입력으로 취하는 자기 회귀 기반 비전-언어 모델(AR-based VLM)을 훈련시킵니다. 이 지시사항을 따르도록 학습함으로써, AR-based VLM은 이전에 본 작업에 대한 지시 수준의 제로샷 능력을 달성하고, 보이지 않는 CV 작업에 대한 강력한 제로샷 일반화를 보여줍니다. 코드와 데이터셋은 우리의 GitHub 저장소에서 공개적으로 이용 가능할 것입니다.
English
Computer Vision (CV) has yet to fully achieve the zero-shot task
generalization observed in Natural Language Processing (NLP), despite following
many of the milestones established in NLP, such as large transformer models,
extensive pre-training, and the auto-regression paradigm, among others. In this
paper, we explore the idea that CV adopts discrete and terminological task
definitions (\eg, ``image segmentation''), which may be a key barrier to
zero-shot task generalization. Our hypothesis is that without truly
understanding previously-seen tasks--due to these terminological
definitions--deep models struggle to generalize to novel tasks. To verify this,
we introduce Explanatory Instructions, which provide an intuitive way to define
CV task objectives through detailed linguistic transformations from input
images to outputs. We create a large-scale dataset comprising 12 million
``image input to explanatory instruction to output'' triplets, and train
an auto-regressive-based vision-language model (AR-based VLM) that takes both
images and explanatory instructions as input. By learning to follow these
instructions, the AR-based VLM achieves instruction-level zero-shot
capabilities for previously-seen tasks and demonstrates strong zero-shot
generalization for unseen CV tasks. Code and dataset will be openly available
on our GitHub repository.Summary
AI-Generated Summary