Piano Open-Sora: Modello di Generazione di Video di Grandi Dimensioni Open-Source
Open-Sora Plan: Open-Source Large Video Generation Model
November 28, 2024
Autori: Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
cs.AI
Abstract
Introduciamo Open-Sora Plan, un progetto open-source che mira a contribuire a un ampio modello generativo per la produzione di video ad alta risoluzione desiderati con lunga durata basati su vari input utente. Il nostro progetto comprende diversi componenti per l'intero processo di generazione video, tra cui un Autoencoder Variazionale a Flusso Wavelet, un Denoiser con Skiparse Immagine-Video congiunto e vari controller di condizione. Inoltre, sono stati progettati molti strategie assistenti per un addestramento ed un'inferenza efficienti, e viene proposto un pipeline di cura dati multidimensionale per ottenere dati di alta qualità desiderati. Grazie a pensieri efficienti, il nostro Open-Sora Plan ottiene risultati impressionanti nella generazione di video sia nelle valutazioni qualitative che quantitative. Speriamo che il nostro design accurato e l'esperienza pratica possano ispirare la comunità di ricerca sulla generazione di video. Tutti i nostri codici e i pesi dei modelli sono disponibili pubblicamente su https://github.com/PKU-YuanGroup/Open-Sora-Plan.
English
We introduce Open-Sora Plan, an open-source project that aims to contribute a
large generation model for generating desired high-resolution videos with long
durations based on various user inputs. Our project comprises multiple
components for the entire video generation process, including a Wavelet-Flow
Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various
condition controllers. Moreover, many assistant strategies for efficient
training and inference are designed, and a multi-dimensional data curation
pipeline is proposed for obtaining desired high-quality data. Benefiting from
efficient thoughts, our Open-Sora Plan achieves impressive video generation
results in both qualitative and quantitative evaluations. We hope our careful
design and practical experience can inspire the video generation research
community. All our codes and model weights are publicly available at
https://github.com/PKU-YuanGroup/Open-Sora-Plan.Summary
AI-Generated Summary