ChatPaper.aiChatPaper

I Modelli Visione-Linguaggio Possono Rispondere a Domande Faccia a Faccia nel Mondo Reale?

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

March 25, 2025
Autori: Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
cs.AI

Abstract

I modelli di IA hanno compiuto progressi significativi negli ultimi anni nella loro capacità di descrivere e rispondere a domande su immagini del mondo reale. Hanno anche fatto passi avanti nella capacità di conversare con gli utenti in tempo reale utilizzando input audio. Ciò solleva la domanda: abbiamo raggiunto il punto in cui i modelli di IA, connessi a una telecamera e a un microfono, possono conversare con gli utenti in tempo reale su scene ed eventi che si svolgono in diretta davanti alla telecamera? Questo è stato un obiettivo di lunga data nell'IA ed è un prerequisito affinché assistenti virtuali e robot umanoidi possano interagire con gli esseri umani in situazioni quotidiane. In questo lavoro, introduciamo un nuovo dataset e benchmark, il Qualcomm Interactive Video Dataset (IVD), che ci permette di valutare fino a che punto i modelli esistenti possano supportare queste capacità e in quale misura queste competenze possano essere sviluppate attraverso il fine-tuning. Il dataset si basa su una semplice configurazione di domande e risposte, in cui gli utenti pongono domande che il sistema deve rispondere, in tempo reale, basandosi sull'input della telecamera e dell'audio. Mostriamo che i modelli esistenti sono molto al di sotto delle prestazioni umane in questo compito e identifichiamo le principali fonti del divario di prestazioni. Tuttavia, dimostriamo anche che, per molte delle abilità percettive richieste, il fine-tuning su questo tipo di dati può ridurre significativamente tale divario.
English
AI models have made significant strides in recent years in their ability to describe and answer questions about real-world images. They have also made progress in the ability to converse with users in real-time using audio input. This raises the question: have we reached the point where AI models, connected to a camera and microphone, can converse with users in real-time about scenes and events that are unfolding live in front of the camera? This has been a long-standing goal in AI and is a prerequisite for real-world AI assistants and humanoid robots to interact with humans in everyday situations. In this work, we introduce a new dataset and benchmark, the Qualcomm Interactive Video Dataset (IVD), which allows us to assess the extent to which existing models can support these abilities, and to what degree these capabilities can be instilled through fine-tuning. The dataset is based on a simple question-answering setup, where users ask questions that the system has to answer, in real-time, based on the camera and audio input. We show that existing models fall far behind human performance on this task, and we identify the main sources for the performance gap. However, we also show that for many of the required perceptual skills, fine-tuning on this form of data can significantly reduce this gap.

Summary

AI-Generated Summary

PDF22March 26, 2025