V-STaR: Benchmarking von Video-LLMs in der räumlich-zeitlichen Videoanalyse
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning
March 14, 2025
Autoren: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong
cs.AI
Zusammenfassung
Menschen verarbeiten Videoanalysen in einer sequenziellen räumlich-zeitlichen Logik. Zuerst identifizieren wir die relevanten Frames („wann“), analysieren dann die räumlichen Beziehungen („wo“) zwischen Schlüsselobjekten und nutzen schließlich diese Beziehungen, um Schlussfolgerungen zu ziehen („was“). Doch können Video Large Language Models (Video-LLMs) ebenfalls „durch eine sequenzielle räumlich-zeitliche Logik“ in Videos schlussfolgern? Bestehende Video-LLM-Benchmarks konzentrieren sich hauptsächlich auf die Bewertung der Objektpräsenz und vernachlässigen die relationale Schlussfolgerung. Folglich ist es schwierig zu messen, ob ein Modell die Interaktionen von Objekten (Handlungen/Ereignisse) in Videos tatsächlich versteht oder sich lediglich auf vorgefertigte „Erinnerungen“ von Kookkurrenzen als Verzerrungen bei der Generierung von Antworten verlässt. In dieser Arbeit führen wir einen Video Spatio-Temporal Reasoning (V-STaR) Benchmark ein, um diese Mängel zu beheben. Die zentrale Idee besteht darin, das Videoverständnis in eine Reverse Spatio-Temporal Reasoning (RSTR)-Aufgabe zu zerlegen, die gleichzeitig bewertet, welche Objekte vorhanden sind, wann Ereignisse stattfinden und wo sie lokalisiert sind, während die zugrunde liegende Chain-of-Thought (CoT)-Logik erfasst wird. Um diese Bewertung zu unterstützen, erstellen wir einen Datensatz, der den räumlich-zeitlichen Schlussfolgerungsprozess von Video-LLMs hervorruft. Er enthält grob- bis feingranulare CoT-Fragen, die durch eine halbautomatisierte, GPT-4-gestützte Pipeline generiert wurden und explizite Schlussfolgerungsketten einbetten, um die menschliche Kognition nachzuahmen. Experimente mit 14 Video-LLMs auf unserem V-STaR zeigen erhebliche Lücken zwischen den aktuellen Video-LLMs und den Anforderungen an robuste und konsistente räumlich-zeitliche Schlussfolgerungen auf.
English
Human processes video reasoning in a sequential spatio-temporal reasoning
logic, we first identify the relevant frames ("when") and then analyse the
spatial relationships ("where") between key objects, and finally leverage these
relationships to draw inferences ("what"). However, can Video Large Language
Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in
videos? Existing Video-LLM benchmarks primarily focus on assessing object
presence, neglecting relational reasoning. Consequently, it is difficult to
measure whether a model truly comprehends object interactions (actions/events)
in videos or merely relies on pre-trained "memory" of co-occurrences as biases
in generating answers. In this work, we introduce a Video Spatio-Temporal
Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to
decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR)
task that simultaneously evaluates what objects are present, when events occur,
and where they are located while capturing the underlying Chain-of-thought
(CoT) logic. To support this evaluation, we construct a dataset to elicit the
spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine
CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding
explicit reasoning chains to mimic human cognition. Experiments from 14
Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and
the needs for robust and consistent spatio-temporal reasoning.Summary
AI-Generated Summary