OVO-Bench: あなたのビデオLLMsは実世界のオンラインビデオ理解からどれくらい離れているか?

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

January 9, 2025
著者: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI

要旨

時間的認識、つまり質問が提起されたタイムスタンプに基づいて動的に推論する能力は、オフラインとオンラインのビデオLLMの主な違いです。オフラインモデルは完全なビデオに依存して静的な事後分析を行うのに対し、オンラインモデルはビデオストリームを段階的に処理し、質問が提起されたタイムスタンプに基づいて動的に応答を適応させます。その重要性にもかかわらず、時間的認識は既存のベンチマークで十分に評価されていませんでした。このギャップを埋めるために、私たちはOVO-Bench(Online-VideO-Benchmark)を提案します。これは、先進的なオンラインビデオ理解能力のベンチマークにおいてタイムスタンプの重要性を強調する新しいビデオベンチマークです。OVO-Benchは、ビデオLLMが特定のタイムスタンプで発生するイベントに対して推論し応答する能力を評価します。これには、以下の3つの異なるシナリオが含まれます:(1)過去のイベントをたどって質問に答える逆トレース、(2)リアルタイム理解:現在のタイムスタンプで展開するイベントを理解し応答する、(3)将来の情報が利用可能になるまで応答を遅らせ、正確に質問に答える前進型応答。OVO-Benchには、644のユニークなビデオと約2,800の細かくメタアノテーションされた正確なタイムスタンプが含まれる12のタスクがあります。自動生成パイプラインと人間によるキュレーションを組み合わせています。これらの高品質サンプルを使用して、ビデオLLMに対してビデオタイムラインに沿ってシステマティックにクエリを実行する評価パイプラインをさらに開発しました。9つのビデオLLMの評価によると、従来のベンチマークにおける進歩にもかかわらず、現在のモデルはオンラインビデオ理解に苦戦しており、人間エージェントと比較して大きなギャップがあることが示されました。OVO-BenchがビデオLLMの進歩を促進し、オンラインビデオ推論の将来の研究をインスパイアすることを願っています。当該ベンチマークとコードは、https://github.com/JoeLeelyf/OVO-Bench からアクセスできます。
English
Temporal Awareness, the ability to reason dynamically based on the timestamp when a question is raised, is the key distinction between offline and online video LLMs. Unlike offline models, which rely on complete videos for static, post hoc analysis, online models process video streams incrementally and dynamically adapt their responses based on the timestamp at which the question is posed. Despite its significance, temporal awareness has not been adequately evaluated in existing benchmarks. To fill this gap, we present OVO-Bench (Online-VideO-Benchmark), a novel video benchmark that emphasizes the importance of timestamps for advanced online video understanding capability benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and respond to events occurring at specific timestamps under three distinct scenarios: (1) Backward tracing: trace back to past events to answer the question. (2) Real-time understanding: understand and respond to events as they unfold at the current timestamp. (3) Forward active responding: delay the response until sufficient future information becomes available to answer the question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos and approximately human-curated 2,800 fine-grained meta-annotations with precise timestamps. We combine automated generation pipelines with human curation. With these high-quality samples, we further developed an evaluation pipeline to systematically query video LLMs along the video timeline. Evaluations of nine Video-LLMs reveal that, despite advancements on traditional benchmarks, current models struggle with online video understanding, showing a significant gap compared to human agents. We hope OVO-Bench will drive progress in video LLMs and inspire future research in online video reasoning. Our benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.

Summary

AI-Generated Summary

PDF352January 13, 2025