GroundingSuite: Messung komplexer mehrgranularer Pixelverankerung
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
March 13, 2025
Autoren: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI
Zusammenfassung
Pixel Grounding, das Aufgaben wie die Segmentierung von Referenzausdrücken (Referring Expression Segmentation, RES) umfasst, hat aufgrund seines immensen Potenzials, die Lücke zwischen visuellen und sprachlichen Modalitäten zu überbrücken, erhebliche Aufmerksamkeit erregt. Fortschritte in diesem Bereich werden jedoch derzeit durch die Einschränkungen bestehender Datensätze behindert, darunter begrenzte Objektkategorien, unzureichende textuelle Vielfalt und ein Mangel an hochwertigen Annotationen. Um diese Einschränkungen zu überwinden, stellen wir GroundingSuite vor, das Folgendes umfasst: (1) ein automatisiertes Datenannotationsframework, das mehrere Vision-Language-Modelle (VLM) nutzt; (2) einen groß angelegten Trainingsdatensatz mit 9,56 Millionen vielfältigen Referenzausdrücken und ihren entsprechenden Segmentierungen; und (3) einen sorgfältig kuratierten Evaluierungsbenchmark, bestehend aus 3.800 Bildern. Der GroundingSuite-Trainingsdatensatz ermöglicht erhebliche Leistungssteigerungen, sodass darauf trainierte Modelle state-of-the-art Ergebnisse erzielen. Konkret wird ein cIoU von 68,9 auf gRefCOCO und ein gIoU von 55,3 auf RefCOCOm erreicht. Darüber hinaus zeigt das GroundingSuite-Annotationsframework eine überlegene Effizienz im Vergleich zur derzeit führenden Methode zur Datenannotation, d. h. es ist 4,5-mal schneller als GLaMM.
English
Pixel grounding, encompassing tasks such as Referring Expression Segmentation
(RES), has garnered considerable attention due to its immense potential for
bridging the gap between vision and language modalities. However, advancements
in this domain are currently constrained by limitations inherent in existing
datasets, including limited object categories, insufficient textual diversity,
and a scarcity of high-quality annotations. To mitigate these limitations, we
introduce GroundingSuite, which comprises: (1) an automated data annotation
framework leveraging multiple Vision-Language Model (VLM) agents; (2) a
large-scale training dataset encompassing 9.56 million diverse referring
expressions and their corresponding segmentations; and (3) a meticulously
curated evaluation benchmark consisting of 3,800 images. The GroundingSuite
training dataset facilitates substantial performance improvements, enabling
models trained on it to achieve state-of-the-art results. Specifically, a cIoU
of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the
GroundingSuite annotation framework demonstrates superior efficiency compared
to the current leading data annotation method, i.e., 4.5 times faster than
the GLaMM.Summary
AI-Generated Summary