Bezugnehmend auf eine beliebige Person
Referring to Any Person
March 11, 2025
Autoren: Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang
cs.AI
Zusammenfassung
Menschen sind zweifellos die wichtigsten Akteure in der Computer Vision, und die Fähigkeit, eine beliebige Person anhand einer natürlichen Sprachbeschreibung zu erkennen – eine Aufgabe, die wir als Referenzierung einer beliebigen Person definieren –, besitzt erheblichen praktischen Wert. Allerdings stellen wir fest, dass bestehende Modelle im Allgemeinen nicht die für die reale Welt erforderliche Nutzbarkeit erreichen und aktuelle Benchmarks durch ihre Fokussierung auf Eins-zu-eins-Referenzierungen begrenzt sind, was den Fortschritt in diesem Bereich behindert. In dieser Arbeit betrachten wir diese Aufgabe aus drei kritischen Perspektiven: Aufgabendefinition, Datensatzdesign und Modellarchitektur. Zunächst identifizieren wir fünf Aspekte referenzierbarer Entitäten und drei charakteristische Merkmale dieser Aufgabe. Anschließend stellen wir HumanRef vor, einen neuartigen Datensatz, der entwickelt wurde, um diese Herausforderungen zu bewältigen und reale Anwendungen besser abzubilden. Aus der Perspektive des Modellentwurfs integrieren wir ein multimodales großes Sprachmodell mit einem Objekterkennungsframework und konstruieren ein robustes Referenzmodell namens RexSeek. Experimentelle Ergebnisse zeigen, dass state-of-the-art Modelle, die auf gängigen Benchmarks wie RefCOCO/+/g gut abschneiden, mit HumanRef Schwierigkeiten haben, da sie nicht in der Lage sind, mehrere Personen zu erkennen. Im Gegensatz dazu überzeugt RexSeek nicht nur bei der Referenzierung von Personen, sondern generalisiert auch effektiv auf die Referenzierung gewöhnlicher Objekte, was es breit anwendbar für verschiedene Wahrnehmungsaufgaben macht. Der Code ist verfügbar unter https://github.com/IDEA-Research/RexSeek.
English
Humans are undoubtedly the most important participants in computer vision,
and the ability to detect any individual given a natural language description,
a task we define as referring to any person, holds substantial practical value.
However, we find that existing models generally fail to achieve real-world
usability, and current benchmarks are limited by their focus on one-to-one
referring, that hinder progress in this area. In this work, we revisit this
task from three critical perspectives: task definition, dataset design, and
model architecture. We first identify five aspects of referable entities and
three distinctive characteristics of this task. Next, we introduce HumanRef, a
novel dataset designed to tackle these challenges and better reflect real-world
applications. From a model design perspective, we integrate a multimodal large
language model with an object detection framework, constructing a robust
referring model named RexSeek. Experimental results reveal that
state-of-the-art models, which perform well on commonly used benchmarks like
RefCOCO/+/g, struggle with HumanRef due to their inability to detect multiple
individuals. In contrast, RexSeek not only excels in human referring but also
generalizes effectively to common object referring, making it broadly
applicable across various perception tasks. Code is available at
https://github.com/IDEA-Research/RexSeekSummary
AI-Generated Summary