ST-VLM: Kinematische Instruktionsoptimierung für räumlich-zeitliches Schließen in Vision-Sprach-Modellen
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models
March 25, 2025
Autoren: Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim
cs.AI
Zusammenfassung
Räumlich-zeitliches Denken ist entscheidend für das Verständnis realer Umgebungen in verschiedenen Bereichen, wie z.B. autonomes Fahren und Sportanalysen. Jüngste Fortschritte haben die räumliche Denkfähigkeit von Vision-Language-Modellen (VLMs) durch die Einführung groß angelegter Daten verbessert, doch diese Modelle haben immer noch Schwierigkeiten, kinematische Elemente wie zurückgelegte Distanz und Geschwindigkeit von bewegten Objekten zu analysieren. Um diese Lücke zu schließen, erstellen wir einen Datensatz und ein Benchmark für räumlich-zeitliches Denken, das kinematische Instruktionsoptimierung beinhaltet, genannt STKit und STKit-Bench. Diese bestehen aus realen Videos mit 3D-Annotationen, die die Bewegungsdynamik von Objekten detailliert beschreiben: zurückgelegte Distanz, Geschwindigkeit, Bewegungsrichtung, Distanzvergleiche zwischen Objekten und relative Bewegungsrichtung. Um die Konstruktion solcher Daten auf Videos ohne 3D-Labels zu skalieren, schlagen wir eine automatische Pipeline vor, die Pseudo-Labels mittels 4D-Rekonstruktion in realem Maßstab generiert. Mit unseren kinematischen Instruktionsoptimierungsdaten für räumlich-zeitliches Denken präsentieren wir ST-VLM, ein VLM, das für räumlich-zeitliches Denken optimiert ist und hervorragende Leistungen auf STKit-Bench zeigt. Darüber hinaus demonstrieren wir, dass ST-VLM robust über verschiedene Domänen und Aufgaben hinweg generalisiert und Baselines auf anderen räumlich-zeitlichen Benchmarks (z.B. ActivityNet, TVQA+) übertrifft. Schließlich ermöglicht ST-VLM durch die Integration von gelerntem räumlich-zeitlichem Denken mit bestehenden Fähigkeiten komplexe mehrstufige Schlussfolgerungen. Projektseite: https://ikodoh.github.io/ST-VLM.
English
Spatio-temporal reasoning is essential in understanding real-world
environments in various fields, eg, autonomous driving and sports analytics.
Recent advances have improved the spatial reasoning ability of Vision-Language
Models (VLMs) by introducing large-scale data, but these models still struggle
to analyze kinematic elements like traveled distance and speed of moving
objects. To bridge this gap, we construct a spatio-temporal reasoning dataset
and benchmark involving kinematic instruction tuning, referred to as STKit and
STKit-Bench. They consist of real-world videos with 3D annotations, detailing
object motion dynamics: traveled distance, speed, movement direction,
inter-object distance comparisons, and relative movement direction. To further
scale such data construction to videos without 3D labels, we propose an
automatic pipeline to generate pseudo-labels using 4D reconstruction in
real-world scale. With our kinematic instruction tuning data for
spatio-temporal reasoning, we present ST-VLM, a VLM enhanced for
spatio-temporal reasoning, which exhibits outstanding performance on
STKit-Bench. Furthermore, we show that ST-VLM generalizes robustly across
diverse domains and tasks, outperforming baselines on other spatio-temporal
benchmarks (eg, ActivityNet, TVQA+). Finally, by integrating learned
spatio-temporal reasoning with existing abilities, ST-VLM enables complex
multi-step reasoning. Project page: https://ikodoh.github.io/ST-VLM.Summary
AI-Generated Summary