Step-Video-T2V 기술 보고서: 비디오 기초 모델의 실천, 도전, 그리고 미래
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
February 14, 2025
저자: Guoqing Ma, Haoyang Huang, Kun Yan, Liangyu Chen, Nan Duan, Shengming Yin, Changyi Wan, Ranchen Ming, Xiaoniu Song, Xing Chen, Yu Zhou, Deshan Sun, Deyu Zhou, Jian Zhou, Kaijun Tan, Kang An, Mei Chen, Wei Ji, Qiling Wu, Wen Sun, Xin Han, Yanan Wei, Zheng Ge, Aojie Li, Bin Wang, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Chen Xu, Chenfei Wu, Chenguang Yu, Dapeng Shi, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang, Guanzhe Huang, Gulin Yan, Haiyang Feng, Hao Nie, Haonan Jia, Hanpeng Hu, Hanqi Chen, Haolong Yan, Heng Wang, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiaoren Wu, Jie Wu, Jie Yang, Jiashuai Liu, Jiashuo Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Lei Liu, Lei Xia, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Ming Li, Mingliang Li, Muhua Cheng, Na Wang, Qiaohui Chen, Qinglin He, Qiuyan Liang, Quan Sun, Ran Sun, Rui Wang, Shaoliang Pang, Shiliang Yang, Sitong Liu, Siqi Liu, Shuli Gao, Tiancheng Cao, Tianyu Wang, Weipeng Ming, Wenqing He, Xu Zhao, Xuelin Zhang, Xianfang Zeng, Xiaojia Liu, Xuan Yang, Yaqi Dai, Yanbo Yu, Yang Li, Yineng Deng, Yingming Wang, Yilei Wang, Yuanwei Lu, Yu Chen, Yu Luo, Yuchu Luo, Yuhe Yin, Yuheng Feng, Yuxiang Yang, Zecheng Tang, Zekai Zhang, Zidong Yang, Binxing Jiao, Jiansheng Chen, Jing Li, Shuchang Zhou, Xiangyu Zhang, Xinhao Zhang, Yibo Zhu, Heung-Yeung Shum, Daxin Jiang
cs.AI
초록
우리는 300억 개의 파라미터를 갖추고 최대 204프레임 길이의 비디오를 생성할 수 있는 최첨단 텍스트-투-비디오 사전 학습 모델인 Step-Video-T2V를 소개합니다. 비디오 생성 작업을 위해 설계된 심층 압축 변분 오토인코더(Video-VAE)는 16x16 공간 및 8x 시간적 압축 비율을 달성하면서도 탁월한 비디오 재구성 품질을 유지합니다. 사용자 프롬프트는 영어와 중국어를 모두 처리하기 위해 두 개의 이중 언어 텍스트 인코더를 사용하여 인코딩됩니다. 3D 전체 주의 메커니즘을 갖춘 DiT는 Flow Matching을 사용하여 학습되며, 입력 노이즈를 잠재 프레임으로 디노이즈하는 데 사용됩니다. 비디오 기반 DPO 접근법(Video-DPO)은 아티팩트를 줄이고 생성된 비디오의 시각적 품질을 개선하기 위해 적용됩니다. 또한, 우리의 훈련 전략을 상세히 설명하고 주요 관찰과 통찰을 공유합니다. Step-Video-T2V의 성능은 새로운 비디오 생성 벤치마크인 Step-Video-T2V-Eval에서 평가되며, 오픈소스 및 상용 엔진과 비교했을 때 최첨단 텍스트-투-비디오 품질을 입증합니다. 추가적으로, 현재의 확산 기반 모델 패러다임의 한계를 논의하고 비디오 파운데이션 모델의 미래 방향을 제시합니다. 우리는 Step-Video-T2V와 Step-Video-T2V-Eval을 https://github.com/stepfun-ai/Step-Video-T2V에서 공개합니다. 온라인 버전은 https://yuewen.cn/videos에서도 접근할 수 있습니다. 우리의 목표는 비디오 파운데이션 모델의 혁신을 가속화하고 비디오 콘텐츠 제작자들에게 힘을 실어주는 것입니다.
English
We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model
with 30B parameters and the ability to generate videos up to 204 frames in
length. A deep compression Variational Autoencoder, Video-VAE, is designed for
video generation tasks, achieving 16x16 spatial and 8x temporal compression
ratios, while maintaining exceptional video reconstruction quality. User
prompts are encoded using two bilingual text encoders to handle both English
and Chinese. A DiT with 3D full attention is trained using Flow Matching and is
employed to denoise input noise into latent frames. A video-based DPO approach,
Video-DPO, is applied to reduce artifacts and improve the visual quality of the
generated videos. We also detail our training strategies and share key
observations and insights. Step-Video-T2V's performance is evaluated on a novel
video generation benchmark, Step-Video-T2V-Eval, demonstrating its
state-of-the-art text-to-video quality when compared with both open-source and
commercial engines. Additionally, we discuss the limitations of current
diffusion-based model paradigm and outline future directions for video
foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval
available at https://github.com/stepfun-ai/Step-Video-T2V. The online version
can be accessed from https://yuewen.cn/videos as well. Our goal is to
accelerate the innovation of video foundation models and empower video content
creators.Summary
AI-Generated Summary