DINO-X: 개방형 세계 객체 탐지 및 이해를 위한 통합 비전 모델
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
November 21, 2024
저자: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang
cs.AI
초록
본 논문에서는 IDEA Research가 개발한 DINO-X를 소개합니다. DINO-X는 현재까지 최고의 오픈 월드 객체 탐지 성능을 보유한 통합된 객체 중심 비전 모델입니다. DINO-X는 오픈 월드 객체 이해를 위해 Grounding DINO 1.5와 동일한 Transformer 기반 인코더-디코더 아키텍처를 사용합니다. 롱테일 객체 탐지를 용이하게 하기 위해 DINO-X는 텍스트 프롬프트, 비주얼 프롬프트 및 사용자 정의 프롬프트를 지원하는 입력 옵션을 확장했습니다. 이러한 유연한 프롬프트 옵션으로 우리는 프롬프트 없이 오픈 월드 탐지를 지원하는 범용 객체 프롬프트를 개발하여 사용자에게 어떠한 프롬프트도 제공하지 않고 이미지 내의 모든 것을 탐지할 수 있게 했습니다. 모델의 핵심 그라운딩 능력을 향상시키기 위해 우리는 Grounding-100M이라고 불리는 1억 개 이상의 고품질 그라운딩 샘플을 포함한 대규모 데이터셋을 구축했습니다. 이는 모델의 오픈 어휘 탐지 성능을 향상시키기 위한 것입니다. 이러한 대규모 그라운딩 데이터셋에서 사전 훈련을 진행함으로써 DINO-X에게 기반 객체 수준 표현을 제공하고, 여러 인식 헤드를 통합하여 동시에 여러 객체 인식 및 이해 작업을 지원할 수 있게 했습니다. 실험 결과는 DINO-X의 우수한 성능을 입증합니다. 특히 DINO-X Pro 모델은 COCO, LVIS-minival 및 LVIS-val 제로샷 객체 탐지 벤치마크에서 각각 56.0 AP, 59.8 AP 및 52.4 AP를 달성했습니다. LVIS-minival 및 LVIS-val 벤치마크의 희귀 클래스에서는 각각 63.3 AP 및 56.5 AP를 기록하여 이전 SOTA 성능을 5.8 AP 향상시켰습니다. 이러한 결과는 롱테일 객체를 인식하는 능력이 크게 향상되었음을 강조합니다.
English
In this paper, we introduce DINO-X, which is a unified object-centric vision
model developed by IDEA Research with the best open-world object detection
performance to date. DINO-X employs the same Transformer-based encoder-decoder
architecture as Grounding DINO 1.5 to pursue an object-level representation for
open-world object understanding. To make long-tailed object detection easy,
DINO-X extends its input options to support text prompt, visual prompt, and
customized prompt. With such flexible prompt options, we develop a universal
object prompt to support prompt-free open-world detection, making it possible
to detect anything in an image without requiring users to provide any prompt.
To enhance the model's core grounding capability, we have constructed a
large-scale dataset with over 100 million high-quality grounding samples,
referred to as Grounding-100M, for advancing the model's open-vocabulary
detection performance. Pre-training on such a large-scale grounding dataset
leads to a foundational object-level representation, which enables DINO-X to
integrate multiple perception heads to simultaneously support multiple object
perception and understanding tasks, including detection, segmentation, pose
estimation, object captioning, object-based QA, etc. Experimental results
demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro
model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and
LVIS-val zero-shot object detection benchmarks, respectively. Notably, it
scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val
benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a
result underscores its significantly improved capacity for recognizing
long-tailed objects.Summary
AI-Generated Summary