Dispider: Abilitare Video LLMs con Interazione Attiva in Tempo Reale tramite Percezione, Decisione e Reazione Disentangled
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
January 6, 2025
Autori: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
L'interazione attiva in tempo reale con video LLM introduce un nuovo paradigma per l'interazione uomo-computer, dove il modello non solo comprende l'intento dell'utente ma risponde anche mentre elabora continuamente il video in streaming al volo. A differenza dei LLM video offline, che analizzano l'intero video prima di rispondere alle domande, l'interazione attiva in tempo reale richiede tre capacità: 1) Percezione: monitoraggio video in tempo reale e cattura dell'interazione. 2) Decisione: sollevare interazioni proattive nelle situazioni appropriate. 3) Reazione: interazione continua con gli utenti. Tuttavia, esistono conflitti intrinseci tra le capacità desiderate. La Decisione e la Reazione richiedono una scala e una granularità di Percezione contrarie, e la decodifica autoregressiva blocca la Percezione e la Decisione in tempo reale durante la Reazione. Per unificare le capacità in conflitto all'interno di un sistema armonioso, presentiamo Dispider, un sistema che disintegra Percezione, Decisione e Reazione. Dispider presenta un modulo leggero di elaborazione video in streaming proattivo che monitora il flusso video e identifica i momenti ottimali per l'interazione. Una volta attivata l'interazione, un modulo di interazione asincrono fornisce risposte dettagliate, mentre il modulo di elaborazione continua a monitorare il video nel frattempo. Il nostro design disintegrato e asincrono garantisce risposte tempestive, accuratamente contestualizzate ed efficienti dal punto di vista computazionale, rendendo Dispider ideale per l'interazione attiva in tempo reale per flussi video di lunga durata. Gli esperimenti mostrano che Dispider non solo mantiene elevate prestazioni nei compiti convenzionali di domande e risposte video, ma supera significativamente i modelli online precedenti nelle risposte agli scenari di streaming, convalidando così l'efficacia della nostra architettura. Il codice e il modello sono disponibili su https://github.com/Mark12Ding/Dispider.
English
Active Real-time interaction with video LLMs introduces a new paradigm for
human-computer interaction, where the model not only understands user intent
but also responds while continuously processing streaming video on the fly.
Unlike offline video LLMs, which analyze the entire video before answering
questions, active real-time interaction requires three capabilities: 1)
Perception: real-time video monitoring and interaction capturing. 2) Decision:
raising proactive interaction in proper situations, 3) Reaction: continuous
interaction with users. However, inherent conflicts exist among the desired
capabilities. The Decision and Reaction require a contrary Perception scale and
grain, and the autoregressive decoding blocks the real-time Perception and
Decision during the Reaction. To unify the conflicted capabilities within a
harmonious system, we present Dispider, a system that disentangles Perception,
Decision, and Reaction. Dispider features a lightweight proactive streaming
video processing module that tracks the video stream and identifies optimal
moments for interaction. Once the interaction is triggered, an asynchronous
interaction module provides detailed responses, while the processing module
continues to monitor the video in the meantime. Our disentangled and
asynchronous design ensures timely, contextually accurate, and computationally
efficient responses, making Dispider ideal for active real-time interaction for
long-duration video streams. Experiments show that Dispider not only maintains
strong performance in conventional video QA tasks, but also significantly
surpasses previous online models in streaming scenario responses, thereby
validating the effectiveness of our architecture. The code and model are
released at https://github.com/Mark12Ding/Dispider.Summary
AI-Generated Summary