디스파이더: 해체된 지각, 결정 및 반응을 통해 활성 실시간 상호작용이 가능한 비디오 LLMs
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
January 6, 2025
저자: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
초록
비디오 LLM과의 활발한 실시간 상호작용은 사용자 의도를 이해하는 것뿐만 아니라 실시간으로 스트리밍 비디오를 지속적으로 처리하면서 응답하는 새로운 패러다임을 인간-컴퓨터 상호작용에 도입합니다. 오프라인 비디오 LLM과는 달리, 활발한 실시간 상호작용은 질문에 대답하기 전에 전체 비디오를 분석하는 대신 3가지 능력이 필요합니다: 1) 지각: 실시간 비디오 모니터링 및 상호작용 캡처, 2) 결정: 적절한 상황에서 선행적 상호작용 제시, 3) 반응: 사용자와의 지속적인 상호작용. 그러나 원하는 능력 사이에는 내재적인 충돌이 존재합니다. 결정과 반응은 상반되는 지각 척도와 세분성을 필요로 하며, 자기 회귀 디코딩은 반응 중에 실시간 지각과 결정을 방해합니다. 상충되는 능력을 조화롭게 통합하기 위해 우리는 Perception, Decision 및 Reaction을 분리하는 Dispider 시스템을 제안합니다. Dispider는 비디오 스트림을 추적하고 상호작용하기에 최적인 순간을 식별하는 경량 선행적 스트리밍 비디오 처리 모듈을 특징으로 합니다. 상호작용이 트리거되면 비동기 상호작용 모듈이 자세한 응답을 제공하며, 처리 모듈은 동시에 비디오를 계속 모니터링합니다. 우리의 분리 및 비동기식 설계는 적시에, 맥락에 맞게 정확하고 계산 효율적인 응답을 보장하여 Dispider를 장기간 비디오 스트림에 대한 활발한 실시간 상호작용에 이상적으로 만듭니다. 실험 결과, Dispider는 전통적인 비디오 QA 작업에서 강력한 성능을 유지할 뿐만 아니라 스트리밍 시나리오 응답에서 이전 온라인 모델을 크게 능가하여 우리 아키텍처의 효과를 입증합니다. 코드 및 모델은 https://github.com/Mark12Ding/Dispider에서 공개되어 있습니다.
English
Active Real-time interaction with video LLMs introduces a new paradigm for
human-computer interaction, where the model not only understands user intent
but also responds while continuously processing streaming video on the fly.
Unlike offline video LLMs, which analyze the entire video before answering
questions, active real-time interaction requires three capabilities: 1)
Perception: real-time video monitoring and interaction capturing. 2) Decision:
raising proactive interaction in proper situations, 3) Reaction: continuous
interaction with users. However, inherent conflicts exist among the desired
capabilities. The Decision and Reaction require a contrary Perception scale and
grain, and the autoregressive decoding blocks the real-time Perception and
Decision during the Reaction. To unify the conflicted capabilities within a
harmonious system, we present Dispider, a system that disentangles Perception,
Decision, and Reaction. Dispider features a lightweight proactive streaming
video processing module that tracks the video stream and identifies optimal
moments for interaction. Once the interaction is triggered, an asynchronous
interaction module provides detailed responses, while the processing module
continues to monitor the video in the meantime. Our disentangled and
asynchronous design ensures timely, contextually accurate, and computationally
efficient responses, making Dispider ideal for active real-time interaction for
long-duration video streams. Experiments show that Dispider not only maintains
strong performance in conventional video QA tasks, but also significantly
surpasses previous online models in streaming scenario responses, thereby
validating the effectiveness of our architecture. The code and model are
released at https://github.com/Mark12Ding/Dispider.Summary
AI-Generated Summary