DINO-X : Un modèle de vision unifié pour la détection et la compréhension d'objets en environnement ouvert
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
November 21, 2024
Auteurs: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang
cs.AI
Résumé
Dans cet article, nous présentons DINO-X, un modèle de vision centré sur les objets unifié développé par IDEA Research avec les meilleures performances à ce jour en matière de détection d'objets en environnement ouvert. DINO-X utilise la même architecture encodeur-décodeur basée sur les Transformers que Grounding DINO 1.5 pour rechercher une représentation au niveau des objets en vue de la compréhension des objets en environnement ouvert. Pour faciliter la détection d'objets à longue queue, DINO-X étend ses options d'entrée pour prendre en charge des instructions textuelles, visuelles et personnalisées. Grâce à ces options d'instructions flexibles, nous développons une instruction universelle sur les objets pour prendre en charge la détection en environnement ouvert sans instruction préalable, permettant ainsi de détecter n'importe quoi dans une image sans que les utilisateurs fournissent d'instructions. Pour renforcer la capacité de base du modèle à ancrer les objets, nous avons constitué un ensemble de données à grande échelle avec plus de 100 millions d'échantillons d'ancrage de haute qualité, appelé Grounding-100M, pour améliorer les performances de détection à vocabulaire ouvert du modèle. La pré-formation sur un tel ensemble de données d'ancrage à grande échelle conduit à une représentation au niveau des objets fondamentale, ce qui permet à DINO-X d'intégrer plusieurs têtes de perception pour prendre en charge simultanément plusieurs tâches de perception et de compréhension des objets, notamment la détection, la segmentation, l'estimation de la pose, la légende d'objets, les questions-réponses basées sur les objets, etc. Les résultats expérimentaux démontrent les performances supérieures de DINO-X. Plus précisément, le modèle DINO-X Pro atteint 56,0 AP, 59,8 AP et 52,4 AP sur les référentiels de détection d'objets en zéro-shot COCO, LVIS-minival et LVIS-val, respectivement. Notamment, il obtient 63,3 AP et 56,5 AP sur les classes rares des référentiels LVIS-minival et LVIS-val, améliorant ainsi les performances précédentes de l'état de l'art de 5,8 AP. Un tel résultat souligne considérablement sa capacité améliorée à reconnaître les objets à longue queue.
English
In this paper, we introduce DINO-X, which is a unified object-centric vision
model developed by IDEA Research with the best open-world object detection
performance to date. DINO-X employs the same Transformer-based encoder-decoder
architecture as Grounding DINO 1.5 to pursue an object-level representation for
open-world object understanding. To make long-tailed object detection easy,
DINO-X extends its input options to support text prompt, visual prompt, and
customized prompt. With such flexible prompt options, we develop a universal
object prompt to support prompt-free open-world detection, making it possible
to detect anything in an image without requiring users to provide any prompt.
To enhance the model's core grounding capability, we have constructed a
large-scale dataset with over 100 million high-quality grounding samples,
referred to as Grounding-100M, for advancing the model's open-vocabulary
detection performance. Pre-training on such a large-scale grounding dataset
leads to a foundational object-level representation, which enables DINO-X to
integrate multiple perception heads to simultaneously support multiple object
perception and understanding tasks, including detection, segmentation, pose
estimation, object captioning, object-based QA, etc. Experimental results
demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro
model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and
LVIS-val zero-shot object detection benchmarks, respectively. Notably, it
scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val
benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a
result underscores its significantly improved capacity for recognizing
long-tailed objects.Summary
AI-Generated Summary