Het leren van videovoorstellingen zonder natuurlijke video's.
Learning Video Representations without Natural Videos
October 31, 2024
Auteurs: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI
Samenvatting
In dit artikel laten we zien dat bruikbare videorepresentaties kunnen worden geleerd van synthetische video's en natuurlijke afbeeldingen, zonder natuurlijke video's in de training op te nemen. We stellen een reeks videodatasets voor die gesynthetiseerd zijn door eenvoudige generatieve processen, die een groeiende reeks eigenschappen van natuurlijke video's modelleren (bijv. beweging, versnelling en vormtransformaties). De prestatie van videomodellen die vooraf zijn getraind op deze gegenereerde datasets neemt geleidelijk toe met de voortgang van de datasets. Een VideoMAE-model dat vooraf is getraind op onze synthetische video's sluit 97,2% van de prestatiekloof op UCF101-actieclassificatie tussen training vanaf nul en zelfgestuurde voorafgaande training van natuurlijke video's, en presteert beter dan het vooraf getrainde model op HMDB51. Het introduceren van uitsneden van statische afbeeldingen in de voorafgaande trainingsfase resulteert in een vergelijkbare prestatie als UCF101-vooraftraining en overtreft het op UCF101 vooraf getrainde model op 11 van de 14 out-of-distribution datasets van UCF101-P. Door de eigenschappen van de datasets op laag niveau te analyseren, identificeren we correlaties tussen frame-diversiteit, gelijkenis van frames met natuurlijke data en downstream prestaties. Onze aanpak biedt een meer controleerbaar en transparant alternatief voor videogegevenscuratieprocessen voor voorafgaande training.
English
In this paper, we show that useful video representations can be learned from
synthetic videos and natural images, without incorporating natural videos in
the training. We propose a progression of video datasets synthesized by simple
generative processes, that model a growing set of natural video properties
(e.g. motion, acceleration, and shape transformations). The downstream
performance of video models pre-trained on these generated datasets gradually
increases with the dataset progression. A VideoMAE model pre-trained on our
synthetic videos closes 97.2% of the performance gap on UCF101 action
classification between training from scratch and self-supervised pre-training
from natural videos, and outperforms the pre-trained model on HMDB51.
Introducing crops of static images to the pre-training stage results in similar
performance to UCF101 pre-training and outperforms the UCF101 pre-trained model
on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the
low-level properties of the datasets, we identify correlations between frame
diversity, frame similarity to natural data, and downstream performance. Our
approach provides a more controllable and transparent alternative to video data
curation processes for pre-training.Summary
AI-Generated Summary