ChatPaper.aiChatPaper

ST-VLM: Sintonizzazione delle Istruzioni Cinematiche per il Ragionamento Spazio-Temporale nei Modelli Visione-Linguaggio

ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models

March 25, 2025
Autori: Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim
cs.AI

Abstract

Il ragionamento spazio-temporale è essenziale per comprendere gli ambienti del mondo reale in vari campi, come la guida autonoma e l'analisi sportiva. I recenti progressi hanno migliorato la capacità di ragionamento spaziale dei Modelli Visione-Linguaggio (VLMs) attraverso l'introduzione di dati su larga scala, ma questi modelli faticano ancora ad analizzare elementi cinematici come la distanza percorsa e la velocità degli oggetti in movimento. Per colmare questa lacuna, abbiamo costruito un dataset e un benchmark per il ragionamento spazio-temporale che coinvolgono l'ottimizzazione delle istruzioni cinematiche, denominati STKit e STKit-Bench. Essi consistono in video del mondo reale con annotazioni 3D, che dettagliano la dinamica del movimento degli oggetti: distanza percorsa, velocità, direzione del movimento, confronti delle distanze inter-oggetto e direzione relativa del movimento. Per scalare ulteriormente la costruzione di tali dati a video senza etichette 3D, proponiamo una pipeline automatica per generare pseudo-etichette utilizzando la ricostruzione 4D in scala reale. Con i nostri dati di ottimizzazione delle istruzioni cinematiche per il ragionamento spazio-temporale, presentiamo ST-VLM, un VLM potenziato per il ragionamento spazio-temporale, che mostra prestazioni eccezionali su STKit-Bench. Inoltre, dimostriamo che ST-VLM si generalizza robustamente attraverso diversi domini e compiti, superando i baseline su altri benchmark spazio-temporali (ad esempio, ActivityNet, TVQA+). Infine, integrando il ragionamento spazio-temporale appreso con le capacità esistenti, ST-VLM abilita un complesso ragionamento multi-step. Pagina del progetto: https://ikodoh.github.io/ST-VLM.
English
Spatio-temporal reasoning is essential in understanding real-world environments in various fields, eg, autonomous driving and sports analytics. Recent advances have improved the spatial reasoning ability of Vision-Language Models (VLMs) by introducing large-scale data, but these models still struggle to analyze kinematic elements like traveled distance and speed of moving objects. To bridge this gap, we construct a spatio-temporal reasoning dataset and benchmark involving kinematic instruction tuning, referred to as STKit and STKit-Bench. They consist of real-world videos with 3D annotations, detailing object motion dynamics: traveled distance, speed, movement direction, inter-object distance comparisons, and relative movement direction. To further scale such data construction to videos without 3D labels, we propose an automatic pipeline to generate pseudo-labels using 4D reconstruction in real-world scale. With our kinematic instruction tuning data for spatio-temporal reasoning, we present ST-VLM, a VLM enhanced for spatio-temporal reasoning, which exhibits outstanding performance on STKit-Bench. Furthermore, we show that ST-VLM generalizes robustly across diverse domains and tasks, outperforming baselines on other spatio-temporal benchmarks (eg, ActivityNet, TVQA+). Finally, by integrating learned spatio-temporal reasoning with existing abilities, ST-VLM enables complex multi-step reasoning. Project page: https://ikodoh.github.io/ST-VLM.

Summary

AI-Generated Summary

PDF11March 26, 2025