코코넛-팬캡: 공동 팬옵틱 세그멘테이션 및 그라운드 캡션을 통한 세밀한 이해와 생성
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation
February 4, 2025
저자: Xueqing Deng, Qihang Yu, Ali Athar, Chenglin Yang, Linjie Yang, Xiaojie Jin, Xiaohui Shen, Liang-Chieh Chen
cs.AI
초록
본 논문은 팬옵틱 분할 및 이미지 캡션에 중점을 둔 COCONut-PanCap 데이터셋을 소개합니다. COCO 데이터셋을 기반으로 한 고급 COCONut 팬옵틱 마스크를 활용하여, 기존의 이미지-텍스트 데이터셋에서 종종 부족한 자세하고 장면 전체를 아우르는 설명의 한계를 극복하기 위해 이 데이터셋이 개발되었습니다. COCONut-PanCap 데이터셋은 팬옵틱 분할 마스크에 근거한 세밀한 영역 수준의 캡션을 통합하여 일관성을 확보하고 생성된 캡션의 세부 사항을 향상시킵니다. 인간이 편집한 밀도 높은 주석을 통해, COCONut-PanCap은 이미지 이해를 위한 시각-언어 모델(VLMs)의 향상된 학습과 텍스트-이미지 작업을 위한 생성 모델을 지원합니다. 실험 결과는 COCONut-PanCap이 이해 및 생성 작업 전반에 걸쳐 성능을 현저히 향상시키며, 대규모 데이터셋에 보완적인 이점을 제공함을 입증합니다. 이 데이터셋은 공동 팬옵틱 분할과 근거 있는 캡션 작업에 대한 모델을 평가하기 위한 새로운 기준을 제시하며, 다중 모달 학습에서 고품질의 자세한 이미지-텍스트 주석이 필요함에 대응합니다.
English
This paper introduces the COCONut-PanCap dataset, created to enhance panoptic
segmentation and grounded image captioning. Building upon the COCO dataset with
advanced COCONut panoptic masks, this dataset aims to overcome limitations in
existing image-text datasets that often lack detailed, scene-comprehensive
descriptions. The COCONut-PanCap dataset incorporates fine-grained,
region-level captions grounded in panoptic segmentation masks, ensuring
consistency and improving the detail of generated captions. Through
human-edited, densely annotated descriptions, COCONut-PanCap supports improved
training of vision-language models (VLMs) for image understanding and
generative models for text-to-image tasks. Experimental results demonstrate
that COCONut-PanCap significantly boosts performance across understanding and
generation tasks, offering complementary benefits to large-scale datasets. This
dataset sets a new benchmark for evaluating models on joint panoptic
segmentation and grounded captioning tasks, addressing the need for
high-quality, detailed image-text annotations in multi-modal learning.Summary
AI-Generated Summary