DINO-X: Un modello di visione unificato per la rilevazione e comprensione degli oggetti in un mondo aperto
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
November 21, 2024
Autori: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang
cs.AI
Abstract
In questo articolo, presentiamo DINO-X, che è un modello unificato di visione centrato sugli oggetti sviluppato da IDEA Research con le migliori prestazioni di rilevamento degli oggetti in un ambiente aperto fino ad oggi. DINO-X utilizza la stessa architettura codificatore-decodificatore basata su Transformer di Grounding DINO 1.5 per perseguire una rappresentazione a livello di oggetto per la comprensione degli oggetti in un ambiente aperto. Per facilitare il rilevamento degli oggetti a lunga coda, DINO-X estende le sue opzioni di input per supportare prompt di testo, prompt visivo e prompt personalizzato. Con tali opzioni di prompt flessibili, sviluppiamo un prompt universale per gli oggetti per supportare il rilevamento senza prompt in un ambiente aperto, rendendo possibile rilevare qualsiasi cosa in un'immagine senza richiedere agli utenti di fornire alcun prompt. Per potenziare la capacità di base del modello di grounding, abbiamo costruito un dataset su larga scala con oltre 100 milioni di campioni di grounding di alta qualità, denominato Grounding-100M, per migliorare le prestazioni del modello nel rilevamento del vocabolario aperto. Il pre-training su un dataset di grounding su larga scala porta a una rappresentazione a livello di oggetto fondamentale, che consente a DINO-X di integrare più testine di percezione per supportare contemporaneamente più compiti di percezione e comprensione degli oggetti, tra cui rilevamento, segmentazione, stima della posa, didascalia degli oggetti, QA basato sugli oggetti, ecc. I risultati sperimentali dimostrano le prestazioni superiori di DINO-X. In particolare, il modello DINO-X Pro raggiunge 56.0 AP, 59.8 AP e 52.4 AP rispettivamente sui benchmark di rilevamento degli oggetti COCO, LVIS-minival e LVIS-val a zero-shot. In particolare, ottiene 63.3 AP e 56.5 AP sulle classi rare dei benchmark LVIS-minival e LVIS-val, migliorando entrambe le prestazioni SOTA precedenti di 5.8 AP. Tale risultato sottolinea la sua capacità significativamente migliorata di riconoscere oggetti a lunga coda.
English
In this paper, we introduce DINO-X, which is a unified object-centric vision
model developed by IDEA Research with the best open-world object detection
performance to date. DINO-X employs the same Transformer-based encoder-decoder
architecture as Grounding DINO 1.5 to pursue an object-level representation for
open-world object understanding. To make long-tailed object detection easy,
DINO-X extends its input options to support text prompt, visual prompt, and
customized prompt. With such flexible prompt options, we develop a universal
object prompt to support prompt-free open-world detection, making it possible
to detect anything in an image without requiring users to provide any prompt.
To enhance the model's core grounding capability, we have constructed a
large-scale dataset with over 100 million high-quality grounding samples,
referred to as Grounding-100M, for advancing the model's open-vocabulary
detection performance. Pre-training on such a large-scale grounding dataset
leads to a foundational object-level representation, which enables DINO-X to
integrate multiple perception heads to simultaneously support multiple object
perception and understanding tasks, including detection, segmentation, pose
estimation, object captioning, object-based QA, etc. Experimental results
demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro
model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and
LVIS-val zero-shot object detection benchmarks, respectively. Notably, it
scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val
benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a
result underscores its significantly improved capacity for recognizing
long-tailed objects.Summary
AI-Generated Summary