OVO-Bench: 귀하의 비디오-LLMs가 현실 세계 온라인 비디오 이해와 얼마나 떨어져 있는가?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?
January 9, 2025
저자: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI
초록
시간적 인식(Temporal Awareness)은 질문이 제기된 타임스탬프를 기반으로 동적으로 추론하는 능력으로, 오프라인과 온라인 비디오 LLMs 간의 주요한 차이점입니다. 오프라인 모델은 완전한 비디오를 활용하여 정적인 사후 분석에 의존하는 반면, 온라인 모델은 비디오 스트림을 점진적으로 처리하고 질문이 제기된 타임스탬프에 기반하여 동적으로 응답을 조정합니다. 그 중요성에도 불구하고, 시간적 인식은 기존의 벤치마크에서 충분히 평가되지 않았습니다. 이러한 공백을 채우기 위해, 우리는 온라인 비디오 이해 능력 벤치마킹을 강조하는 혁신적인 비디오 벤치마크인 OVO-Bench(Online-VideO-Benchmark)를 제시합니다. OVO-Bench는 비디오 LLMs가 특정 타임스탬프에서 발생하는 사건에 대해 추론하고 응답하는 능력을 평가합니다. (1) 과거 추적: 과거 사건을 추적하여 질문에 답합니다. (2) 실시간 이해: 현재 타임스탬프에서 일어나는 사건을 이해하고 응답합니다. (3) 미래적인 응답: 질문에 정확하게 답변하기 위해 충분한 미래 정보가 제공될 때까지 응답을 지연합니다. OVO-Bench는 644개의 고유한 비디오와 약 2,800개의 정확한 타임스탬프를 가진 세심하게 정리된 메타 어노테이션으로 구성된 12가지 작업을 포함합니다. 우리는 자동 생성 파이프라인과 인간의 선별을 결합했습니다. 이러한 고품질 샘플을 통해 우리는 비디오 LLMs를 비디오 타임라인을 따라 체계적으로 쿼리하는 평가 파이프라인을 더 발전시켰습니다. 아홉 가지 비디오 LLMs의 평가 결과는, 전통적인 벤치마크에 대한 발전에도 불구하고 현재 모델들이 온라인 비디오 이해에 어려움을 겪고 있으며, 인간 에이전트와 비교했을 때 상당한 차이를 보여줍니다. 우리는 OVO-Bench가 비디오 LLMs의 발전을 촉진하고 온라인 비디오 추론에 대한 미래 연구를 영감을 주기를 희망합니다. 저희의 벤치마크와 코드는 https://github.com/JoeLeelyf/OVO-Bench에서 확인하실 수 있습니다.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp
when a question is raised, is the key distinction between offline and online
video LLMs. Unlike offline models, which rely on complete videos for static,
post hoc analysis, online models process video streams incrementally and
dynamically adapt their responses based on the timestamp at which the question
is posed. Despite its significance, temporal awareness has not been adequately
evaluated in existing benchmarks. To fill this gap, we present OVO-Bench
(Online-VideO-Benchmark), a novel video benchmark that emphasizes the
importance of timestamps for advanced online video understanding capability
benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and
respond to events occurring at specific timestamps under three distinct
scenarios: (1) Backward tracing: trace back to past events to answer the
question. (2) Real-time understanding: understand and respond to events as they
unfold at the current timestamp. (3) Forward active responding: delay the
response until sufficient future information becomes available to answer the
question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos
and approximately human-curated 2,800 fine-grained meta-annotations with
precise timestamps. We combine automated generation pipelines with human
curation. With these high-quality samples, we further developed an evaluation
pipeline to systematically query video LLMs along the video timeline.
Evaluations of nine Video-LLMs reveal that, despite advancements on traditional
benchmarks, current models struggle with online video understanding, showing a
significant gap compared to human agents. We hope OVO-Bench will drive progress
in video LLMs and inspire future research in online video reasoning. Our
benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.Summary
AI-Generated Summary