오픈소라 계획: 오픈소스 대형 비디오 생성 모델
Open-Sora Plan: Open-Source Large Video Generation Model
November 28, 2024
저자: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
cs.AI
초록
우리는 원하는 고해상도 비디오를 생성하기 위한 대규모 생성 모델에 기여하는 것을 목표로 하는 오픈 소스 프로젝트인 Open-Sora Plan을 소개합니다. 우리의 프로젝트는 Wavelet-Flow 변이 오토인코더, Joint Image-Video Skiparse Denoiser 및 다양한 조건 컨트롤러를 포함한 전체 비디오 생성 프로세스를 위한 여러 구성 요소로 구성되어 있습니다. 또한 효율적인 교육 및 추론을 위한 많은 보조 전략이 설계되었으며 원하는 고품질 데이터를 얻기 위한 다차원 데이터 정제 파이프라인이 제안되었습니다. 효율적인 아이디어로부터 이뤄진 우리의 Open-Sora Plan은 질적 및 양적 평가에서 인상적인 비디오 생성 결과를 달성합니다. 우리의 신중한 설계와 실용적 경험이 비디오 생성 연구 커뮤니티에 영감을 줄 것을 희망합니다. 우리의 모든 코드와 모델 가중치는 https://github.com/PKU-YuanGroup/Open-Sora-Plan에서 공개적으로 이용 가능합니다.
English
We introduce Open-Sora Plan, an open-source project that aims to contribute a
large generation model for generating desired high-resolution videos with long
durations based on various user inputs. Our project comprises multiple
components for the entire video generation process, including a Wavelet-Flow
Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various
condition controllers. Moreover, many assistant strategies for efficient
training and inference are designed, and a multi-dimensional data curation
pipeline is proposed for obtaining desired high-quality data. Benefiting from
efficient thoughts, our Open-Sora Plan achieves impressive video generation
results in both qualitative and quantitative evaluations. We hope our careful
design and practical experience can inspire the video generation research
community. All our codes and model weights are publicly available at
https://github.com/PKU-YuanGroup/Open-Sora-Plan.Summary
AI-Generated Summary