자연 비디오 없이 비디오 표현 학습하기
Learning Video Representations without Natural Videos
October 31, 2024
저자: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI
초록
본 논문에서는 자연 비디오를 훈련에 포함시키지 않고 합성 비디오와 자연 이미지로부터 유용한 비디오 표현을 학습할 수 있다는 것을 보여줍니다. 우리는 간단한 생성 프로세스에 의해 합성된 비디오 데이터셋 진행을 제안합니다. 이 데이터셋은 자연 비디오 특성(예: 움직임, 가속, 모양 변환)의 증가하는 집합을 모델링합니다. 이러한 생성된 데이터셋에서 사전 훈련된 비디오 모델의 하류 성능은 데이터셋 진행에 따라 점진적으로 향상됩니다. 우리의 합성 비디오에서 사전 훈련된 VideoMAE 모델은 UCF101 동작 분류에서 처음부터 훈련하거나 자가 지도 사전 훈련과의 성능 차이 97.2%를 메우며 HMDB51에서 사전 훈련된 모델을 능가합니다. 사전 훈련 단계에서 정적 이미지의 잘린 부분을 도입하면 UCF101 사전 훈련과 유사한 성능을 보이며 UCF101 사전 훈련된 모델을 UCF101-P의 14개의 분포 이외 데이터셋 중 11개에서 능가합니다. 데이터셋의 저수준 특성을 분석하여 프레임 다양성, 자연 데이터와의 프레임 유사성, 그리고 하류 성능 사이의 상관 관계를 확인합니다. 우리의 접근 방식은 사전 훈련을 위한 비디오 데이터 선별 프로세스에 대한 더욱 조절 가능하고 투명한 대안을 제공합니다.
English
In this paper, we show that useful video representations can be learned from
synthetic videos and natural images, without incorporating natural videos in
the training. We propose a progression of video datasets synthesized by simple
generative processes, that model a growing set of natural video properties
(e.g. motion, acceleration, and shape transformations). The downstream
performance of video models pre-trained on these generated datasets gradually
increases with the dataset progression. A VideoMAE model pre-trained on our
synthetic videos closes 97.2% of the performance gap on UCF101 action
classification between training from scratch and self-supervised pre-training
from natural videos, and outperforms the pre-trained model on HMDB51.
Introducing crops of static images to the pre-training stage results in similar
performance to UCF101 pre-training and outperforms the UCF101 pre-trained model
on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the
low-level properties of the datasets, we identify correlations between frame
diversity, frame similarity to natural data, and downstream performance. Our
approach provides a more controllable and transparent alternative to video data
curation processes for pre-training.Summary
AI-Generated Summary
논문 개요
이 논문은 합성 비디오와 자연 이미지를 활용하여 유용한 비디오 표현을 학습하는 방법을 제시하고자 합니다. 연구 결과를 통해 합성 데이터를 사용한 사전 훈련이 자연 데이터를 사용한 사전 훈련과 유사한 성능을 보이며, 특히 정적 이미지의 일부를 활용하면 성능이 향상됨을 확인하였습니다.
핵심 기여
- 간단한 생성 프로세스를 통해 합성된 비디오 데이터셋을 제안
- 합성 데이터를 활용한 사전 훈련이 자연 데이터를 활용한 사전 훈련과 유사한 성능을 보임
- 정적 이미지의 일부를 활용한 사전 훈련은 성능 향상에 기여
연구 맥락
이 연구는 비디오 표현 학습 분야에서 합성 데이터의 활용과 사전 훈련의 중요성을 강조하며, 자연 이미지 외의 데이터 소스를 통한 비디오 표현 학습의 가능성을 탐구합니다.
주요 용어
- 합성 데이터
- 비디오 표현 학습
- 사전 훈련
- 하향식 성능
- 정적 이미지
배경
이 논문은 자연 비디오 대신 합성 비디오와 이미지를 사용하여 비디오 표현을 학습하는 방법에 대한 연구입니다. 기존 연구에서는 이러한 방법에 대한 연구 공백이 있었고, 기술적 도전과 이전 방법들에 대한 비판적 분석이 필요했습니다.
연구 간극
- 합성 데이터를 활용한 비디오 표현 학습에 대한 선행 연구 부족
- 자연 이미지 외의 데이터 소스를 활용한 비디오 표현 학습의 기술적 어려움
기술적 도전
- 합성 데이터의 생성 및 활용
- 사전 훈련 모델의 구조 및 성능 향상
기존 방법
- 자연 이미지를 사용한 비디오 표현 학습
- 전통적인 사전 훈련 방법의 한계
방법론
이 논문에서는 합성 데이터를 활용한 비디오 표현 학습의 방법론을 소개합니다. 해당 방법론은 이론적 기반, 기술적 아키텍처, 구현 세부사항, 그리고 혁신적인 포인트로 구성됩니다.
이론적 기반
- 비디오 생성 모델의 이론적 기반 설명
- VideoMAE를 활용한 사전 훈련 이론
기술 아키텍처
- 사전 훈련 모델의 아키텍처 설명
- 데이터셋 크기 및 기준선 설정
구현 세부사항
- 비디오 생성 모델의 진행 방식 설명
- VideoMAE를 활용한 사전 훈련 프로토콜 설명
혁신적인 포인트
- 합성 데이터를 활용한 사전 훈련의 장점
실험 검증
이 논문에서는 실험 검증을 통해 제안한 방법론의 효과를 입증합니다.
설정
- 사전 훈련 및 하향식 작업에 대한 각 생성 모델의 평가 설정
- 생성된 데이터셋 크기 및 하이퍼파라미터 설정
메트릭
- 프레임 다양성 및 하향식 성능 간의 상관 관계 분석
- 색상 통계 비교 결과
결과
- 합성 데이터를 활용한 모델의 성능 평가 결과
- UCF101-P 데이터셋에서의 성능 비교 결과
비교 분석
- 합성 데이터와 자연 데이터를 활용한 모델의 비교 분석
영향과 함의
이 논문의 결과와 함의에 대해 다룹니다.
주요 결과
- 합성 데이터를 활용한 사전 훈련의 효과
- 모델 성능 개선을 위한 제안
한계
- 일반화 및 다른 작업에 대한 적용 한계
- 자연 이미지 데이터 활용의 한계
미래 방향
- 다양한 데이터 소스 및 생성 프로세스 탐구
- 자연 비디오 없이 비디오 표현 학습 강화 방안
실용적 중요성
- 합성 데이터의 활용이 훈련 데이터 관리에 미치는 영향
- ViT-B VideoMAE 모델의 성능 향상 결과
이 논문은 협력자 및 연구 지원 기관에 감사의 글을 표기하였습니다.
DeepSeek-R1: 강화 학습을 통해 LLMs의 추론 능력을 유도하기DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
DeepSeek-R1: 강화 학습을 통해 LLMs의 추론 능력을 유도하기
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang•Jan 22, 2025•3685
Qwen2.5 기술 보고서Qwen2.5 Technical Report
Qwen2.5 기술 보고서
Qwen2.5 Technical Report
Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu•Dec 19, 2024•36311
MiniMax-01: 번개 주의를 사용하여 Foundation 모델의 스케일링MiniMax-01: Scaling Foundation Models with Lightning Attention
MiniMax-01: 번개 주의를 사용하여 Foundation 모델의 스케일링
MiniMax-01: Scaling Foundation Models with Lightning Attention
MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu•Jan 14, 2025•2836