OVO-Bench: Wie weit sind Ihre Video-LLMs von einem Verständnis von Online-Videos in der realen Welt entfernt?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?
January 9, 2025
Autoren: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI
Zusammenfassung
Die zeitliche Wahrnehmung, die Fähigkeit, dynamisch basierend auf dem Zeitstempel zu argumentieren, wenn eine Frage gestellt wird, ist der Schlüsselunterschied zwischen Offline- und Online-Video-LLMs. Im Gegensatz zu Offline-Modellen, die auf vollständige Videos für statische, nachträgliche Analysen angewiesen sind, verarbeiten Online-Modelle Video-Streams inkrementell und passen ihre Antworten dynamisch an den Zeitstempel an, zu dem die Frage gestellt wird. Trotz ihrer Bedeutung wurde die zeitliche Wahrnehmung in bestehenden Benchmarks nicht angemessen bewertet. Um diese Lücke zu schließen, präsentieren wir OVO-Bench (Online-VideO-Benchmark), einen neuartigen Videobenchmark, der die Bedeutung von Zeitstempeln für die Bewertung der fortgeschrittenen Online-Video-Verständnisfähigkeit betont. OVO-Bench bewertet die Fähigkeit von Video-LLMs, Ereignisse, die zu bestimmten Zeitstempeln auftreten, zu analysieren und darauf zu reagieren, unter drei verschiedenen Szenarien: (1) Rückverfolgung: Rückverfolgung vergangener Ereignisse, um die Frage zu beantworten. (2) Echtzeitverständnis: Ereignisse verstehen und darauf reagieren, während sie sich zum aktuellen Zeitstempel entfalten. (3) Vorausschauendes Reagieren: Die Antwort verzögern, bis ausreichende zukünftige Informationen verfügbar sind, um die Frage genau zu beantworten. OVO-Bench umfasst 12 Aufgaben, die 644 einzigartige Videos und etwa 2.800 fein abgestimmte Metazeitstempelungen umfassen, die von Menschen kuratiert wurden. Wir kombinieren automatisierte Generierungspipelines mit menschlicher Kuratierung. Mit diesen hochwertigen Beispielen haben wir eine Bewertungspipeline weiterentwickelt, um Video-LLMs systematisch entlang der Videotimeline abzufragen. Die Bewertungen von neun Video-LLMs zeigen, dass aktuelle Modelle trotz Fortschritten bei traditionellen Benchmarks Schwierigkeiten mit dem Verständnis von Online-Videos haben und einen signifikanten Unterschied im Vergleich zu menschlichen Agenten aufweisen. Wir hoffen, dass OVO-Bench Fortschritte bei Video-LLMs vorantreiben und zukünftige Forschung im Bereich des Online-Video-Argumentierens inspirieren wird. Unser Benchmark und der Code sind unter https://github.com/JoeLeelyf/OVO-Bench verfügbar.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp
when a question is raised, is the key distinction between offline and online
video LLMs. Unlike offline models, which rely on complete videos for static,
post hoc analysis, online models process video streams incrementally and
dynamically adapt their responses based on the timestamp at which the question
is posed. Despite its significance, temporal awareness has not been adequately
evaluated in existing benchmarks. To fill this gap, we present OVO-Bench
(Online-VideO-Benchmark), a novel video benchmark that emphasizes the
importance of timestamps for advanced online video understanding capability
benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and
respond to events occurring at specific timestamps under three distinct
scenarios: (1) Backward tracing: trace back to past events to answer the
question. (2) Real-time understanding: understand and respond to events as they
unfold at the current timestamp. (3) Forward active responding: delay the
response until sufficient future information becomes available to answer the
question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos
and approximately human-curated 2,800 fine-grained meta-annotations with
precise timestamps. We combine automated generation pipelines with human
curation. With these high-quality samples, we further developed an evaluation
pipeline to systematically query video LLMs along the video timeline.
Evaluations of nine Video-LLMs reveal that, despite advancements on traditional
benchmarks, current models struggle with online video understanding, showing a
significant gap compared to human agents. We hope OVO-Bench will drive progress
in video LLMs and inspire future research in online video reasoning. Our
benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.Summary
AI-Generated Summary