ChatPaper.aiChatPaper

비디오 LLM을 활용한 공간-시간 객체 이해의 발전을 위한 VideoRefer Suite

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

December 31, 2024
저자: Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing
cs.AI

초록

최근에는 비디오 대규모 언어 모델(Video LLMs)이 일반적인 비디오 이해 분야에서 놀라운 능력을 보여주고 있습니다. 그러나 이 모델들은 주로 전체적인 이해에 초점을 맞추고 세부적인 공간 및 시간적 세부 사항을 포착하는 데 어려움을 겪고 있습니다. 게다가 고품질의 객체 수준 비디오 지시 데이터와 포괄적인 벤치마크의 부족이 이들의 발전을 방해하고 있습니다. 이러한 도전에 대처하기 위해 우리는 Video LLM을 더 세밀한 수준의 공간-시간 비디오 이해를 위해 강화하는 VideoRefer Suite를 소개합니다. 즉, 비디오 전체에 걸쳐 임의의 객체에 대한 지각 및 추론을 가능하게 합니다. 특히, 우리는 데이터셋, 모델 및 벤치마크 세 가지 핵심 측면에서 VideoRefer Suite를 철저히 개발했습니다. 먼저, 우리는 다중 에이전트 데이터 엔진을 소개하여 정밀하게 큐레이션된 대규모 고품질 객체 수준 비디오 지시 데이터셋 VideoRefer-700K를 구축했습니다. 그 다음으로, 우리는 VideoRefer 모델을 제시했는데, 이 모델은 다재다능한 공간-시간 객체 인코더를 장착하여 정확한 지역 및 순차적 표현을 캡처합니다. 마지막으로, Video LLM의 공간-시간 이해 능력을 포괄적으로 평가하기 위해 VideoRefer-Bench를 세심하게 만들었습니다. 광범위한 실험과 분석을 통해 우리의 VideoRefer 모델이 비디오 지시 벤치마크에서 융통성 있는 성능을 달성할 뿐만 아니라 일반적인 비디오 이해 능력을 촉진한다는 것을 입증했습니다.
English
Video Large Language Models (Video LLMs) have recently exhibited remarkable capabilities in general video understanding. However, they mainly focus on holistic comprehension and struggle with capturing fine-grained spatial and temporal details. Besides, the lack of high-quality object-level video instruction data and a comprehensive benchmark further hinders their advancements. To tackle these challenges, we introduce the VideoRefer Suite to empower Video LLM for finer-level spatial-temporal video understanding, i.e., enabling perception and reasoning on any objects throughout the video. Specially, we thoroughly develop VideoRefer Suite across three essential aspects: dataset, model, and benchmark. Firstly, we introduce a multi-agent data engine to meticulously curate a large-scale, high-quality object-level video instruction dataset, termed VideoRefer-700K. Next, we present the VideoRefer model, which equips a versatile spatial-temporal object encoder to capture precise regional and sequential representations. Finally, we meticulously create a VideoRefer-Bench to comprehensively assess the spatial-temporal understanding capability of a Video LLM, evaluating it across various aspects. Extensive experiments and analyses demonstrate that our VideoRefer model not only achieves promising performance on video referring benchmarks but also facilitates general video understanding capabilities.

Summary

AI-Generated Summary

PDF412January 3, 2025