대조적으로 지역화된 언어-이미지 사전 훈련
Contrastive Localized Language-Image Pre-Training
October 3, 2024
저자: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
cs.AI
초록
대조적 언어-이미지 사전 훈련(CLIP)은 다양한 응용 프로그램을 용이하게 하는 이미지/텍스트 표현을 생성하기 위해 시각 인코더를 훈련하는 데 사용되는 유명한 방법입니다. 최근에는 CLIP가 언어 상호작용을 위해 이미지 입력을 연결하는 다중 모달 대규모 언어 모델(MLLMs)의 시각 백본으로 널리 채택되었습니다. CLIP의 성공은 이미지 수준에서 웹 크롤링된 잡음이 있는 텍스트 주석을 정렬하는 데 의존합니다. 그러나 이러한 기준은 MLLMs에게 지역 수준 이해가 필요한 하위 작업에 대해 미세한 시각 표현이 필요할 때 효과적이지 않을 수 있습니다. 본 논문에서는 CLIP의 지역화 능력을 향상시키기 위해 여러 가지 개선을 하였습니다. 우리는 CLIP를 지역-텍스트 대조 손실과 모듈로 보완하는 Contrastive Localized Language-Image Pre-training (CLOC)이라는 사전 훈련 방법을 제안합니다. 우리는 새로운 개념인 promptable 임베딩을 정의했는데, 이는 공간적 힌트를 제공하여 쉽게 지역 표현으로 변환할 수 있는 이미지 임베딩을 생성하는 인코더를 의미합니다. 대규모 사전 훈련을 지원하기 위해 시각적으로 풍부하고 공간적으로 지역화된 캡셔닝 프레임워크를 설계하여 규모에 맞게 지역-텍스트 가짜 레이블을 효과적으로 생성합니다. 수십억 개의 주석이 달린 이미지로 확장함으로써, CLOC는 이미지 지역 인식 및 검색 작업을 위한 고품질 지역 임베딩을 가능하게 하며, 참조 및 기준 작업에서 특히 MLLMs를 강화하기 위해 CLIP의 대체품이 될 수 있습니다.
English
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method
for training vision encoders to generate image/text representations
facilitating various applications. Recently, CLIP has been widely adopted as
the vision backbone of multimodal large language models (MLLMs) to connect
image inputs for language interactions. The success of CLIP as a
vision-language foundation model relies on aligning web-crawled noisy text
annotations at image levels. Nevertheless, such criteria may become
insufficient for downstream tasks in need of fine-grained vision
representations, especially when region-level understanding is demanding for
MLLMs. In this paper, we improve the localization capability of CLIP with
several advances. We propose a pre-training method called Contrastive Localized
Language-Image Pre-training (CLOC) by complementing CLIP with region-text
contrastive loss and modules. We formulate a new concept, promptable
embeddings, of which the encoder produces image embeddings easy to transform
into region representations given spatial hints. To support large-scale
pre-training, we design a visually-enriched and spatially-localized captioning
framework to effectively generate region-text pseudo-labels at scale. By
scaling up to billions of annotated images, CLOC enables high-quality regional
embeddings for image region recognition and retrieval tasks, and can be a
drop-in replacement of CLIP to enhance MLLMs, especially on referring and
grounding tasks.Summary
AI-Generated Summary