DINO-X: Een Verenigd Visiemodel voor Objectdetectie en Begrip in een Open Wereld
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
November 21, 2024
Auteurs: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang
cs.AI
Samenvatting
In dit artikel introduceren we DINO-X, een verenigd op objecten gericht visiemodel ontwikkeld door IDEA Research met de beste open-world objectdetectieprestaties tot nu toe. DINO-X maakt gebruik van dezelfde op Transformer gebaseerde encoder-decoder architectuur als Grounding DINO 1.5 om een objectniveau representatie te realiseren voor het begrijpen van objecten in een open-world context. Om long-tailed objectdetectie eenvoudig te maken, breidt DINO-X zijn invoeropties uit om tekstprompt, visuele prompt en aangepaste prompt te ondersteunen. Met dergelijke flexibele promptopties ontwikkelen we een universele objectprompt om prompt-vrije open-world detectie te ondersteunen, waardoor het mogelijk wordt om iets in een afbeelding te detecteren zonder dat gebruikers een prompt hoeven te geven. Om de kerngrondingscapaciteit van het model te verbeteren, hebben we een grootschalige dataset geconstrueerd met meer dan 100 miljoen hoogwaardige grondingsvoorbeelden, aangeduid als Grounding-100M, om de open-vocabulaire detectieprestaties van het model te verbeteren. Vooraf trainen op zo'n grootschalige grondingsdataset leidt tot een fundamentele objectniveau representatie, waardoor DINO-X meerdere perceptiekoppen kan integreren om tegelijkertijd meerdere objectperceptie- en begrijpstaken te ondersteunen, waaronder detectie, segmentatie, pose schatting, objectonderschrift, op objecten gebaseerde QA, enzovoort. Experimentele resultaten tonen de superieure prestaties van DINO-X aan. Specifiek behaalt het DINO-X Pro-model 56.0 AP, 59.8 AP en 52.4 AP op respectievelijk de COCO, LVIS-minival en LVIS-val zero-shot objectdetectie benchmarks. Opmerkelijk scoort het 63.3 AP en 56.5 AP op de zeldzame klassen van de LVIS-minival en LVIS-val benchmarks, waarbij beide de vorige SOTA-prestaties met 5.8 AP verbeteren. Een dergelijk resultaat benadrukt aanzienlijk verbeterde capaciteit voor het herkennen van long-tailed objecten.
English
In this paper, we introduce DINO-X, which is a unified object-centric vision
model developed by IDEA Research with the best open-world object detection
performance to date. DINO-X employs the same Transformer-based encoder-decoder
architecture as Grounding DINO 1.5 to pursue an object-level representation for
open-world object understanding. To make long-tailed object detection easy,
DINO-X extends its input options to support text prompt, visual prompt, and
customized prompt. With such flexible prompt options, we develop a universal
object prompt to support prompt-free open-world detection, making it possible
to detect anything in an image without requiring users to provide any prompt.
To enhance the model's core grounding capability, we have constructed a
large-scale dataset with over 100 million high-quality grounding samples,
referred to as Grounding-100M, for advancing the model's open-vocabulary
detection performance. Pre-training on such a large-scale grounding dataset
leads to a foundational object-level representation, which enables DINO-X to
integrate multiple perception heads to simultaneously support multiple object
perception and understanding tasks, including detection, segmentation, pose
estimation, object captioning, object-based QA, etc. Experimental results
demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro
model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and
LVIS-val zero-shot object detection benchmarks, respectively. Notably, it
scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val
benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a
result underscores its significantly improved capacity for recognizing
long-tailed objects.Summary
AI-Generated Summary