DINO-X: Ein vereinheitlichtes Modell für die Erkennung und das Verständnis von Objekten in einer offenen Welt

DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

November 21, 2024
Autoren: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang
cs.AI

Zusammenfassung

In diesem Paper stellen wir DINO-X vor, ein vereinheitlichtes objektorientiertes Visionmodell, das von IDEA Research entwickelt wurde und die bisher beste Leistung bei der Objekterkennung in offenen Umgebungen aufweist. DINO-X verwendet die gleiche auf Transformer basierende Encoder-Decoder-Architektur wie Grounding DINO 1.5, um eine objektebene Repräsentation für das Verständnis von Objekten in offenen Umgebungen zu verfolgen. Um die Erkennung von langschwänzigen Objekten zu erleichtern, erweitert DINO-X seine Eingabeoptionen, um Textprompt, visuellen Prompt und benutzerdefinierten Prompt zu unterstützen. Mit solch flexiblen Promptoptionen entwickeln wir einen universellen Objektprompt, um eine promptfreie Erkennung von Objekten in offenen Umgebungen zu unterstützen, was es ermöglicht, alles in einem Bild zu erkennen, ohne dass Benutzer einen Prompt angeben müssen. Um die Kernverankerungsfähigkeit des Modells zu verbessern, haben wir einen groß angelegten Datensatz mit über 100 Millionen hochwertigen Verankerungsbeispielen erstellt, der als Grounding-100M bezeichnet wird, um die Leistung des Modells bei der Erkennung von Objekten mit offenem Vokabular voranzutreiben. Das Vortrainieren auf einem solch groß angelegten Verankerungsdatensatz führt zu einer grundlegenden objektebenen Repräsentation, die es DINO-X ermöglicht, mehrere Wahrnehmungsköpfe zu integrieren, um gleichzeitig mehrere Aufgaben der Objektwahrnehmung und -verständnis zu unterstützen, einschließlich Erkennung, Segmentierung, Pose-Schätzung, Objektbeschriftung, objektbasierter QA usw. Experimentelle Ergebnisse zeigen die überragende Leistung von DINO-X. Insbesondere erreicht das DINO-X Pro-Modell 56,0 AP, 59,8 AP und 52,4 AP auf den COCO, LVIS-minival und LVIS-val Zero-Shot-Objekterkennungs-Benchmarks. Bemerkenswert sind die Ergebnisse von 63,3 AP und 56,5 AP bei den seltenen Klassen der LVIS-minival und LVIS-val Benchmarks, wobei beide die vorherige SOTA-Leistung um 5,8 AP verbessern. Ein solches Ergebnis unterstreicht seine signifikant verbesserte Fähigkeit zur Erkennung von langschwänzigen Objekten.
English
In this paper, we introduce DINO-X, which is a unified object-centric vision model developed by IDEA Research with the best open-world object detection performance to date. DINO-X employs the same Transformer-based encoder-decoder architecture as Grounding DINO 1.5 to pursue an object-level representation for open-world object understanding. To make long-tailed object detection easy, DINO-X extends its input options to support text prompt, visual prompt, and customized prompt. With such flexible prompt options, we develop a universal object prompt to support prompt-free open-world detection, making it possible to detect anything in an image without requiring users to provide any prompt. To enhance the model's core grounding capability, we have constructed a large-scale dataset with over 100 million high-quality grounding samples, referred to as Grounding-100M, for advancing the model's open-vocabulary detection performance. Pre-training on such a large-scale grounding dataset leads to a foundational object-level representation, which enables DINO-X to integrate multiple perception heads to simultaneously support multiple object perception and understanding tasks, including detection, segmentation, pose estimation, object captioning, object-based QA, etc. Experimental results demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and LVIS-val zero-shot object detection benchmarks, respectively. Notably, it scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a result underscores its significantly improved capacity for recognizing long-tailed objects.

Summary

AI-Generated Summary

PDF22November 22, 2024