Apprendimento Autosupervisionato di Concetti di Movimento attraverso l'Ottimizzazione di Controfattuali
Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals
March 25, 2025
Autori: Stefan Stojanov, David Wendt, Seungwoo Kim, Rahul Venkatesh, Kevin Feigelis, Jiajun Wu, Daniel LK Yamins
cs.AI
Abstract
La stima del movimento nei video è un problema fondamentale della visione artificiale con numerose applicazioni a valle, tra cui la generazione controllata di video e la robotica. Le soluzioni attuali sono principalmente addestrate utilizzando dati sintetici o richiedono l'ottimizzazione di euristiche specifiche per ogni situazione, il che limita intrinsecamente le capacità di questi modelli in contesti reali. Nonostante i recenti progressi nell'apprendimento auto-supervisionato su larga scala da video, lo sfruttamento di tali rappresentazioni per la stima del movimento rimane relativamente poco esplorato. In questo lavoro, sviluppiamo Opt-CWM, una tecnica auto-supervisionata per la stima del flusso ottico e dell'occlusione a partire da un modello pre-addestrato per la predizione del frame successivo. Opt-CWM funziona imparando a ottimizzare sonde controfattuali che estraggono informazioni sul movimento da un modello video di base, evitando la necessità di euristiche fisse durante l'addestramento su input video non vincolati. Raggiungiamo prestazioni all'avanguardia per la stima del movimento su video reali senza richiedere dati etichettati.
English
Estimating motion in videos is an essential computer vision problem with many
downstream applications, including controllable video generation and robotics.
Current solutions are primarily trained using synthetic data or require tuning
of situation-specific heuristics, which inherently limits these models'
capabilities in real-world contexts. Despite recent developments in large-scale
self-supervised learning from videos, leveraging such representations for
motion estimation remains relatively underexplored. In this work, we develop
Opt-CWM, a self-supervised technique for flow and occlusion estimation from a
pre-trained next-frame prediction model. Opt-CWM works by learning to optimize
counterfactual probes that extract motion information from a base video model,
avoiding the need for fixed heuristics while training on unrestricted video
inputs. We achieve state-of-the-art performance for motion estimation on
real-world videos while requiring no labeled data.Summary
AI-Generated Summary