Apprendimento Autosupervisionato di Concetti di Movimento attraverso l'Ottimizzazione di Controfattuali

Abstract

La stima del movimento nei video è un problema fondamentale della visione artificiale con numerose applicazioni a valle, tra cui la generazione controllata di video e la robotica. Le soluzioni attuali sono principalmente addestrate utilizzando dati sintetici o richiedono l'ottimizzazione di euristiche specifiche per ogni situazione, il che limita intrinsecamente le capacità di questi modelli in contesti reali. Nonostante i recenti progressi nell'apprendimento auto-supervisionato su larga scala da video, lo sfruttamento di tali rappresentazioni per la stima del movimento rimane relativamente poco esplorato. In questo lavoro, sviluppiamo Opt-CWM, una tecnica auto-supervisionata per la stima del flusso ottico e dell'occlusione a partire da un modello pre-addestrato per la predizione del frame successivo. Opt-CWM funziona imparando a ottimizzare sonde controfattuali che estraggono informazioni sul movimento da un modello video di base, evitando la necessità di euristiche fisse durante l'addestramento su input video non vincolati. Raggiungiamo prestazioni all'avanguardia per la stima del movimento su video reali senza richiedere dati etichettati.

English

Estimating motion in videos is an essential computer vision problem with many downstream applications, including controllable video generation and robotics. Current solutions are primarily trained using synthetic data or require tuning of situation-specific heuristics, which inherently limits these models' capabilities in real-world contexts. Despite recent developments in large-scale self-supervised learning from videos, leveraging such representations for motion estimation remains relatively underexplored. In this work, we develop Opt-CWM, a self-supervised technique for flow and occlusion estimation from a pre-trained next-frame prediction model. Opt-CWM works by learning to optimize counterfactual probes that extract motion information from a base video model, avoiding the need for fixed heuristics while training on unrestricted video inputs. We achieve state-of-the-art performance for motion estimation on real-world videos while requiring no labeled data.

Apprendimento Autosupervisionato di Concetti di Movimento attraverso l'Ottimizzazione di Controfattuali

Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals

Abstract

Summary

Support

Support