자연 비디오 없이 비디오 표현 학습하기

Learning Video Representations without Natural Videos

October 31, 2024
저자: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI

초록

본 논문에서는 자연 비디오를 훈련에 포함시키지 않고 합성 비디오와 자연 이미지로부터 유용한 비디오 표현을 학습할 수 있다는 것을 보여줍니다. 우리는 간단한 생성 프로세스에 의해 합성된 비디오 데이터셋 진행을 제안합니다. 이 데이터셋은 자연 비디오 특성(예: 움직임, 가속, 모양 변환)의 증가하는 집합을 모델링합니다. 이러한 생성된 데이터셋에서 사전 훈련된 비디오 모델의 하류 성능은 데이터셋 진행에 따라 점진적으로 향상됩니다. 우리의 합성 비디오에서 사전 훈련된 VideoMAE 모델은 UCF101 동작 분류에서 처음부터 훈련하거나 자가 지도 사전 훈련과의 성능 차이 97.2%를 메우며 HMDB51에서 사전 훈련된 모델을 능가합니다. 사전 훈련 단계에서 정적 이미지의 잘린 부분을 도입하면 UCF101 사전 훈련과 유사한 성능을 보이며 UCF101 사전 훈련된 모델을 UCF101-P의 14개의 분포 이외 데이터셋 중 11개에서 능가합니다. 데이터셋의 저수준 특성을 분석하여 프레임 다양성, 자연 데이터와의 프레임 유사성, 그리고 하류 성능 사이의 상관 관계를 확인합니다. 우리의 접근 방식은 사전 훈련을 위한 비디오 데이터 선별 프로세스에 대한 더욱 조절 가능하고 투명한 대안을 제공합니다.
English
In this paper, we show that useful video representations can be learned from synthetic videos and natural images, without incorporating natural videos in the training. We propose a progression of video datasets synthesized by simple generative processes, that model a growing set of natural video properties (e.g. motion, acceleration, and shape transformations). The downstream performance of video models pre-trained on these generated datasets gradually increases with the dataset progression. A VideoMAE model pre-trained on our synthetic videos closes 97.2% of the performance gap on UCF101 action classification between training from scratch and self-supervised pre-training from natural videos, and outperforms the pre-trained model on HMDB51. Introducing crops of static images to the pre-training stage results in similar performance to UCF101 pre-training and outperforms the UCF101 pre-trained model on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the low-level properties of the datasets, we identify correlations between frame diversity, frame similarity to natural data, and downstream performance. Our approach provides a more controllable and transparent alternative to video data curation processes for pre-training.

Summary

AI-Generated Summary

PDF142November 13, 2024