Können Vision-Sprach-Modelle Face-to-Face-Fragen in der realen Welt beantworten?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?
March 25, 2025
Autoren: Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
cs.AI
Zusammenfassung
KI-Modelle haben in den letzten Jahren bedeutende Fortschritte in ihrer Fähigkeit gemacht, reale Bilder zu beschreiben und Fragen dazu zu beantworten. Sie haben auch Fortschritte in der Fähigkeit erzielt, in Echtzeit mit Benutzern über Audioeingaben zu kommunizieren. Dies wirft die Frage auf: Haben wir den Punkt erreicht, an dem KI-Modelle, die mit einer Kamera und einem Mikrofon verbunden sind, in Echtzeit mit Benutzern über Szenen und Ereignisse sprechen können, die sich live vor der Kamera abspielen? Dies ist ein langjähriges Ziel in der KI und eine Voraussetzung dafür, dass KI-Assistenten und humanoide Roboter in alltäglichen Situationen mit Menschen interagieren können. In dieser Arbeit stellen wir einen neuen Datensatz und Benchmark vor, das Qualcomm Interactive Video Dataset (IVD), mit dem wir bewerten können, inwieweit bestehende Modelle diese Fähigkeiten unterstützen können und in welchem Umfang diese Fähigkeiten durch Feinabstimmung vermittelt werden können. Der Datensatz basiert auf einem einfachen Frage-Antwort-Setup, bei dem Benutzer Fragen stellen, die das System in Echtzeit basierend auf der Kamera- und Audioeingabe beantworten muss. Wir zeigen, dass bestehende Modelle bei dieser Aufgabe weit hinter der menschlichen Leistung zurückbleiben, und wir identifizieren die Hauptursachen für diese Leistungslücke. Allerdings zeigen wir auch, dass für viele der erforderlichen Wahrnehmungsfähigkeiten die Feinabstimmung mit dieser Art von Daten diese Lücke erheblich verringern kann.
English
AI models have made significant strides in recent years in their ability to
describe and answer questions about real-world images. They have also made
progress in the ability to converse with users in real-time using audio input.
This raises the question: have we reached the point where AI models, connected
to a camera and microphone, can converse with users in real-time about scenes
and events that are unfolding live in front of the camera? This has been a
long-standing goal in AI and is a prerequisite for real-world AI assistants and
humanoid robots to interact with humans in everyday situations. In this work,
we introduce a new dataset and benchmark, the Qualcomm Interactive Video
Dataset (IVD), which allows us to assess the extent to which existing models
can support these abilities, and to what degree these capabilities can be
instilled through fine-tuning. The dataset is based on a simple
question-answering setup, where users ask questions that the system has to
answer, in real-time, based on the camera and audio input. We show that
existing models fall far behind human performance on this task, and we identify
the main sources for the performance gap. However, we also show that for many
of the required perceptual skills, fine-tuning on this form of data can
significantly reduce this gap.Summary
AI-Generated Summary