OVO-Bench: Quanto distano i tuoi Video-LLM dal comprendere i video online del mondo reale?

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

January 9, 2025
Autori: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI

Abstract

La Consapevolezza Temporale, la capacità di ragionare dinamicamente in base al timestamp in cui viene posta una domanda, è la distinzione chiave tra i LLM video offline e online. A differenza dei modelli offline, che si basano su video completi per un'analisi statica post-hoc, i modelli online elaborano flussi video in modo incrementale e adattano dinamicamente le loro risposte in base al timestamp in cui viene posta la domanda. Nonostante la sua importanza, la consapevolezza temporale non è stata valutata in modo adeguato nei benchmark esistenti. Per colmare questa lacuna, presentiamo OVO-Bench (Online-VideO-Benchmark), un nuovo benchmark video che sottolinea l'importanza dei timestamp per la valutazione delle capacità avanzate di comprensione video online. OVO-Bench valuta la capacità dei LLM video di ragionare e rispondere agli eventi che si verificano in timestamp specifici in tre scenari distinti: (1) Tracciamento all'indietro: risalire agli eventi passati per rispondere alla domanda. (2) Comprensione in tempo reale: comprendere e rispondere agli eventi mentre si verificano al timestamp corrente. (3) Risposta attiva in avanti: ritardare la risposta fino a quando non diventa disponibile informazione futura sufficiente per rispondere alla domanda con precisione. OVO-Bench comprende 12 compiti, con 644 video unici e circa 2.800 meta-annotazioni dettagliate con timestamp accurati curati dall'uomo. Abbiamo combinato pipeline di generazione automatica con cura umana. Con questi campioni di alta qualità, abbiamo inoltre sviluppato una pipeline di valutazione per interrogare sistematicamente i LLM video lungo la linea temporale del video. Le valutazioni di nove Video-LLM rivelano che, nonostante i progressi sui benchmark tradizionali, i modelli attuali faticano con la comprensione video online, mostrando un divario significativo rispetto agli agenti umani. Speriamo che OVO-Bench possa promuovere progressi nei LLM video e ispirare futura ricerca sulla ragionamento video online. Il nostro benchmark e il codice sono disponibili su https://github.com/JoeLeelyf/OVO-Bench.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp when a question is raised, is the key distinction between offline and online video LLMs. Unlike offline models, which rely on complete videos for static, post hoc analysis, online models process video streams incrementally and dynamically adapt their responses based on the timestamp at which the question is posed. Despite its significance, temporal awareness has not been adequately evaluated in existing benchmarks. To fill this gap, we present OVO-Bench (Online-VideO-Benchmark), a novel video benchmark that emphasizes the importance of timestamps for advanced online video understanding capability benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and respond to events occurring at specific timestamps under three distinct scenarios: (1) Backward tracing: trace back to past events to answer the question. (2) Real-time understanding: understand and respond to events as they unfold at the current timestamp. (3) Forward active responding: delay the response until sufficient future information becomes available to answer the question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos and approximately human-curated 2,800 fine-grained meta-annotations with precise timestamps. We combine automated generation pipelines with human curation. With these high-quality samples, we further developed an evaluation pipeline to systematically query video LLMs along the video timeline. Evaluations of nine Video-LLMs reveal that, despite advancements on traditional benchmarks, current models struggle with online video understanding, showing a significant gap compared to human agents. We hope OVO-Bench will drive progress in video LLMs and inspire future research in online video reasoning. Our benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.

Summary

AI-Generated Summary

PDF352January 13, 2025