ChatPaper.aiChatPaper

오픈소라 계획: 오픈소스 대형 비디오 생성 모델

Open-Sora Plan: Open-Source Large Video Generation Model

November 28, 2024
저자: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
cs.AI

초록

우리는 원하는 고해상도 비디오를 생성하기 위한 대규모 생성 모델에 기여하는 것을 목표로 하는 오픈 소스 프로젝트인 Open-Sora Plan을 소개합니다. 우리의 프로젝트는 Wavelet-Flow 변이 오토인코더, Joint Image-Video Skiparse Denoiser 및 다양한 조건 컨트롤러를 포함한 전체 비디오 생성 프로세스를 위한 여러 구성 요소로 구성되어 있습니다. 또한 효율적인 교육 및 추론을 위한 많은 보조 전략이 설계되었으며 원하는 고품질 데이터를 얻기 위한 다차원 데이터 정제 파이프라인이 제안되었습니다. 효율적인 아이디어로부터 이뤄진 우리의 Open-Sora Plan은 질적 및 양적 평가에서 인상적인 비디오 생성 결과를 달성합니다. 우리의 신중한 설계와 실용적 경험이 비디오 생성 연구 커뮤니티에 영감을 줄 것을 희망합니다. 우리의 모든 코드와 모델 가중치는 https://github.com/PKU-YuanGroup/Open-Sora-Plan에서 공개적으로 이용 가능합니다.
English
We introduce Open-Sora Plan, an open-source project that aims to contribute a large generation model for generating desired high-resolution videos with long durations based on various user inputs. Our project comprises multiple components for the entire video generation process, including a Wavelet-Flow Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various condition controllers. Moreover, many assistant strategies for efficient training and inference are designed, and a multi-dimensional data curation pipeline is proposed for obtaining desired high-quality data. Benefiting from efficient thoughts, our Open-Sora Plan achieves impressive video generation results in both qualitative and quantitative evaluations. We hope our careful design and practical experience can inspire the video generation research community. All our codes and model weights are publicly available at https://github.com/PKU-YuanGroup/Open-Sora-Plan.

Summary

AI-Generated Summary

PDF332December 3, 2024