Dispider: Permitindo LLMs de Vídeo com Interação Ativa em Tempo Real via Percepção, Decisão e Reação Desembaraçadas.

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

January 6, 2025
Autores: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Resumo

A interação ativa em tempo real com modelos de linguagem de vídeo introduz um novo paradigma para a interação humano-computador, onde o modelo não apenas compreende a intenção do usuário, mas também responde enquanto processa continuamente o vídeo em tempo real. Ao contrário dos modelos de linguagem de vídeo offline, que analisam o vídeo inteiro antes de responder às perguntas, a interação ativa em tempo real requer três capacidades: 1) Percepção: monitoramento de vídeo em tempo real e captura de interação. 2) Decisão: tomada de decisão proativa em situações apropriadas. 3) Reação: interação contínua com os usuários. No entanto, existem conflitos inerentes entre as capacidades desejadas. A Decisão e a Reação requerem uma escala e granularidade de Percepção contrárias, e a decodificação autoregressiva bloqueia a Percepção e a Decisão em tempo real durante a Reação. Para unificar as capacidades conflitantes dentro de um sistema harmonioso, apresentamos o Dispider, um sistema que separa a Percepção, Decisão e Reação. O Dispider apresenta um módulo de processamento de vídeo em tempo real proativo e leve que rastreia o fluxo de vídeo e identifica momentos ótimos para interação. Uma vez que a interação é acionada, um módulo de interação assíncrona fornece respostas detalhadas, enquanto o módulo de processamento continua monitorando o vídeo ao mesmo tempo. Nosso design desembaraçado e assíncrono garante respostas oportunas, precisas contextualmente e eficientes computacionalmente, tornando o Dispider ideal para interação ativa em tempo real em fluxos de vídeo de longa duração. Experimentos mostram que o Dispider não apenas mantém um desempenho forte em tarefas convencionais de perguntas e respostas de vídeo, mas também supera significativamente modelos online anteriores em respostas de cenários de streaming, validando assim a eficácia de nossa arquitetura. O código e o modelo estão disponíveis em https://github.com/Mark12Ding/Dispider.
English
Active Real-time interaction with video LLMs introduces a new paradigm for human-computer interaction, where the model not only understands user intent but also responds while continuously processing streaming video on the fly. Unlike offline video LLMs, which analyze the entire video before answering questions, active real-time interaction requires three capabilities: 1) Perception: real-time video monitoring and interaction capturing. 2) Decision: raising proactive interaction in proper situations, 3) Reaction: continuous interaction with users. However, inherent conflicts exist among the desired capabilities. The Decision and Reaction require a contrary Perception scale and grain, and the autoregressive decoding blocks the real-time Perception and Decision during the Reaction. To unify the conflicted capabilities within a harmonious system, we present Dispider, a system that disentangles Perception, Decision, and Reaction. Dispider features a lightweight proactive streaming video processing module that tracks the video stream and identifies optimal moments for interaction. Once the interaction is triggered, an asynchronous interaction module provides detailed responses, while the processing module continues to monitor the video in the meantime. Our disentangled and asynchronous design ensures timely, contextually accurate, and computationally efficient responses, making Dispider ideal for active real-time interaction for long-duration video streams. Experiments show that Dispider not only maintains strong performance in conventional video QA tasks, but also significantly surpasses previous online models in streaming scenario responses, thereby validating the effectiveness of our architecture. The code and model are released at https://github.com/Mark12Ding/Dispider.

Summary

AI-Generated Summary

PDF333January 7, 2025