Apprendimento delle rappresentazioni video senza video naturali.
Learning Video Representations without Natural Videos
October 31, 2024
Autori: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI
Abstract
In questo articolo, dimostriamo che è possibile apprendere rappresentazioni video utili da video sintetici e immagini naturali, senza incorporare video naturali nell'addestramento. Proponiamo una progressione di set di dati video sintetizzati da semplici processi generativi, che modellano un crescente insieme di proprietà video naturali (ad esempio, movimento, accelerazione e trasformazioni della forma). Le prestazioni successive dei modelli video pre-addestrati su questi set di dati generati aumentano gradualmente con la progressione del set di dati. Un modello VideoMAE pre-addestrato sui nostri video sintetici riduce del 97,2% il divario di prestazioni nella classificazione delle azioni UCF101 tra l'addestramento da zero e il pre-addestramento auto-supervisionato da video naturali, e supera il modello pre-addestrato su HMDB51. Introdurre ritagli di immagini statiche nella fase di pre-addestramento porta a prestazioni simili al pre-addestramento UCF101 e supera il modello pre-addestrato su UCF101 in 11 dei 14 set di dati fuori distribuzione di UCF101-P. Analizzando le proprietà a basso livello dei set di dati, identifichiamo correlazioni tra diversità dei frame, similarità dei frame ai dati naturali e prestazioni successive. Il nostro approccio fornisce un'alternativa più controllabile e trasparente ai processi di cura dei dati video per il pre-addestramento.
English
In this paper, we show that useful video representations can be learned from
synthetic videos and natural images, without incorporating natural videos in
the training. We propose a progression of video datasets synthesized by simple
generative processes, that model a growing set of natural video properties
(e.g. motion, acceleration, and shape transformations). The downstream
performance of video models pre-trained on these generated datasets gradually
increases with the dataset progression. A VideoMAE model pre-trained on our
synthetic videos closes 97.2% of the performance gap on UCF101 action
classification between training from scratch and self-supervised pre-training
from natural videos, and outperforms the pre-trained model on HMDB51.
Introducing crops of static images to the pre-training stage results in similar
performance to UCF101 pre-training and outperforms the UCF101 pre-trained model
on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the
low-level properties of the datasets, we identify correlations between frame
diversity, frame similarity to natural data, and downstream performance. Our
approach provides a more controllable and transparent alternative to video data
curation processes for pre-training.Summary
AI-Generated Summary