Lernen von Video-Repräsentationen ohne natürliche Videos
Learning Video Representations without Natural Videos
October 31, 2024
Autoren: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI
Zusammenfassung
In diesem Paper zeigen wir, dass nützliche Video-Repräsentationen aus synthetischen Videos und natürlichen Bildern gelernt werden können, ohne natürliche Videos in das Training einzubeziehen. Wir schlagen eine Abfolge von Video-Datensätzen vor, die durch einfache generative Prozesse synthetisiert werden und eine wachsende Anzahl natürlicher Video-Eigenschaften modellieren (z.B. Bewegung, Beschleunigung und Formtransformationen). Die Leistung von Video-Modellen, die auf diesen generierten Datensätzen vorab trainiert wurden, steigt allmählich mit dem Fortschritt des Datensatzes. Ein VideoMAE-Modell, das auf unseren synthetischen Videos vorab trainiert wurde, schließt 97,2% der Leistungslücke bei der Aktionsklassifizierung von UCF101 zwischen dem Training von Grund auf und dem selbstüberwachten Vorabtraining mit natürlichen Videos und übertrifft das vorab trainierte Modell auf HMDB51. Die Einführung von Ausschnitten statischer Bilder in die Vorabtrainingsphase führt zu ähnlicher Leistung wie das UCF101-Vorabtraining und übertrifft das auf UCF101 vorab trainierte Modell bei 11 von 14 Out-of-Distribution-Datensätzen von UCF101-P. Durch die Analyse der Low-Level-Eigenschaften der Datensätze identifizieren wir Korrelationen zwischen Frame-Vielfalt, Frame-Ähnlichkeit zu natürlichen Daten und der nachgelagerten Leistung. Unser Ansatz bietet eine kontrollierbarere und transparentere Alternative zu den Prozessen der Videodatensammlung für das Vorabtraining.
English
In this paper, we show that useful video representations can be learned from
synthetic videos and natural images, without incorporating natural videos in
the training. We propose a progression of video datasets synthesized by simple
generative processes, that model a growing set of natural video properties
(e.g. motion, acceleration, and shape transformations). The downstream
performance of video models pre-trained on these generated datasets gradually
increases with the dataset progression. A VideoMAE model pre-trained on our
synthetic videos closes 97.2% of the performance gap on UCF101 action
classification between training from scratch and self-supervised pre-training
from natural videos, and outperforms the pre-trained model on HMDB51.
Introducing crops of static images to the pre-training stage results in similar
performance to UCF101 pre-training and outperforms the UCF101 pre-trained model
on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the
low-level properties of the datasets, we identify correlations between frame
diversity, frame similarity to natural data, and downstream performance. Our
approach provides a more controllable and transparent alternative to video data
curation processes for pre-training.Summary
AI-Generated Summary