ChatPaper.aiChatPaper

Lumina-Video: 다중 스케일을 활용한 효율적이고 유연한 비디오 생성 기술인 Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

February 10, 2025
저자: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI

초록

최근의 발전으로 확산 트랜스포머(Diffusion Transformers, DiTs)가 생성 모델링에서 우세한 프레임워크로 자리 잡았다. 이 성공을 바탕으로 Lumina-Next는 Next-DiT로 사실적인 이미지 생성에서 뛰어난 성능을 달성했다. 그러나 비디오 생성에 대한 잠재력은 여전히 충분히 활용되지 않았으며, 비디오 데이터에 내재된 공간적 시간적 복잡성을 모델링하는 데 중요한 어려움이 있다. 이를 해결하기 위해 우리는 Lumina-Video를 소개한다. 이 프레임워크는 Next-DiT의 강점을 활용하면서 비디오 합성을 위한 맞춤형 솔루션을 도입한다. Lumina-Video는 다중 스케일 Next-DiT 아키텍처를 통합하여 여러 패치화를 공동으로 학습하여 효율성과 유연성을 향상시킨다. Lumina-Video는 생성된 비디오의 동적 정도를 직접 제어할 수 있도록 움직임 점수를 명시적 조건으로 포함하여, 점진적 훈련 체계와 점점 더 높은 해상도 및 FPS를 갖는 훈련 체계, 그리고 혼합 자연 및 합성 데이터를 사용하는 다중 소스 훈련 체계와 결합하여 높은 훈련 및 추론 효율성에서 높은 미적 품질과 움직임 부드러움을 달성한다. 또한 생성된 비디오에 동기화된 소리를 만들기 위한 Next-DiT 기반의 비디오-음성 모델인 Lumina-V2A를 제안한다. 코드는 https://www.github.com/Alpha-VLLM/Lumina-Video에서 공개되었다.
English
Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Summary

AI-Generated Summary

PDF122February 11, 2025