VideoRefer Suite: ビデオLLMを用いた空間-時間オブジェクト理解の進化
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM
December 31, 2024
著者: Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing
cs.AI
要旨
最近、ビデオ大規模言語モデル(Video LLMs)は一般的なビデオ理解において顕著な能力を示しています。しかしながら、これらは主に包括的な理解に焦点を当てており、細かい空間的および時間的な詳細を捉えるのに苦労しています。さらに、高品質のオブジェクトレベルのビデオ指示データや包括的なベンチマークの欠如が彼らの進歩を妨げています。これらの課題に対処するために、私たちはVideo LLMをより細かい空間的-時間的なビデオ理解に向けて強化するために、VideoRefer Suiteを導入します。つまり、ビデオ全体を通じて任意のオブジェクトに対する知覚と推論を可能にします。特に、私たちはデータセット、モデル、およびベンチマークの3つの重要な側面にわたってVideoRefer Suiteを徹底的に開発しています。まず、多様なエージェントデータエンジンを導入して、大規模で高品質なオブジェクトレベルのビデオ指示データセットであるVideoRefer-700Kを入念にキュレーションします。次に、正確な地域的および連続的な表現を捉える汎用的な空間-時間オブジェクトエンコーダを備えたVideoReferモデルを提案します。最後に、Video LLMの空間-時間理解能力を包括的に評価するVideoRefer-Benchを入念に作成します。包括的な実験と分析により、私たちのVideoReferモデルがビデオ参照ベンチマークで有望なパフォーマンスを達成するだけでなく、一般的なビデオ理解能力を促進することが示されています。
English
Video Large Language Models (Video LLMs) have recently exhibited remarkable
capabilities in general video understanding. However, they mainly focus on
holistic comprehension and struggle with capturing fine-grained spatial and
temporal details. Besides, the lack of high-quality object-level video
instruction data and a comprehensive benchmark further hinders their
advancements. To tackle these challenges, we introduce the VideoRefer Suite to
empower Video LLM for finer-level spatial-temporal video understanding, i.e.,
enabling perception and reasoning on any objects throughout the video.
Specially, we thoroughly develop VideoRefer Suite across three essential
aspects: dataset, model, and benchmark. Firstly, we introduce a multi-agent
data engine to meticulously curate a large-scale, high-quality object-level
video instruction dataset, termed VideoRefer-700K. Next, we present the
VideoRefer model, which equips a versatile spatial-temporal object encoder to
capture precise regional and sequential representations. Finally, we
meticulously create a VideoRefer-Bench to comprehensively assess the
spatial-temporal understanding capability of a Video LLM, evaluating it across
various aspects. Extensive experiments and analyses demonstrate that our
VideoRefer model not only achieves promising performance on video referring
benchmarks but also facilitates general video understanding capabilities.Summary
AI-Generated Summary