Apprentissage de représentations vidéo sans vidéos naturelles
Learning Video Representations without Natural Videos
October 31, 2024
Auteurs: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI
Résumé
Dans cet article, nous montrons que des représentations vidéo utiles peuvent être apprises à partir de vidéos synthétiques et d'images naturelles, sans intégrer de vidéos naturelles dans l'apprentissage. Nous proposons une progression de jeux de données vidéo synthétisés par des processus génératifs simples, qui modélisent un ensemble croissant de propriétés de vidéos naturelles (par exemple, le mouvement, l'accélération et les transformations de forme). Les performances ultérieures des modèles vidéo pré-entraînés sur ces jeux de données générés augmentent progressivement avec la progression du jeu de données. Un modèle VideoMAE pré-entraîné sur nos vidéos synthétiques comble 97,2 % de l'écart de performance sur la classification des actions UCF101 entre l'apprentissage à partir de zéro et la pré-formation auto-supervisée à partir de vidéos naturelles, et surpasse le modèle pré-entraîné sur HMDB51. L'introduction de découpes d'images statiques à l'étape de pré-entraînement donne des performances similaires à l'entraînement préalable sur UCF101 et surpasse le modèle pré-entraîné sur UCF101 sur 11 des 14 jeux de données hors distribution de UCF101-P. En analysant les propriétés de bas niveau des jeux de données, nous identifions des corrélations entre la diversité des images, la similarité des images aux données naturelles et les performances ultérieures. Notre approche offre une alternative plus contrôlable et transparente aux processus de curation des données vidéo pour le pré-entraînement.
English
In this paper, we show that useful video representations can be learned from
synthetic videos and natural images, without incorporating natural videos in
the training. We propose a progression of video datasets synthesized by simple
generative processes, that model a growing set of natural video properties
(e.g. motion, acceleration, and shape transformations). The downstream
performance of video models pre-trained on these generated datasets gradually
increases with the dataset progression. A VideoMAE model pre-trained on our
synthetic videos closes 97.2% of the performance gap on UCF101 action
classification between training from scratch and self-supervised pre-training
from natural videos, and outperforms the pre-trained model on HMDB51.
Introducing crops of static images to the pre-training stage results in similar
performance to UCF101 pre-training and outperforms the UCF101 pre-trained model
on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the
low-level properties of the datasets, we identify correlations between frame
diversity, frame similarity to natural data, and downstream performance. Our
approach provides a more controllable and transparent alternative to video data
curation processes for pre-training.Summary
AI-Generated Summary