ChatPaper.aiChatPaper

플래시 비디오: 고품질 고해상도 비디오 생성을 위한 세밀함에 대한 흐름 유지

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

February 7, 2025
저자: Shilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo
cs.AI

초록

DiT 확산 모델은 텍스트에서 비디오를 생성하는 데 큰 성공을 거두었으며, 모델 용량과 데이터 규모에서의 확장성을 활용하고 있습니다. 그러나 텍스트 프롬프트와 일치하는 높은 콘텐츠 및 움직임 충실도는 종종 큰 모델 매개변수와 상당한 수의 함수 평가(NFEs)를 필요로 합니다. 현실적이고 시각적으로 매력적인 세부 사항은 일반적으로 고해상도 출력에 반영되며, 특히 단일 단계 DiT 모델의 경우 계산 요구가 더욱 증가합니다. 이러한 도전에 대처하기 위해 저희는 생성 충실도와 품질을 균형있게 유지하기 위해 모델 용량과 NFEs를 단계별로 전략적으로 할당하는 새로운 이단계 프레임워크인 FlashVideo를 제안합니다. 첫 번째 단계에서는 계산 효율성을 향상시키기 위해 큰 매개변수와 충분한 NFEs를 활용한 저해상도 생성 과정을 통해 프롬프트 충실도가 우선시됩니다. 두 번째 단계에서는 저해상도와 고해상도 간의 흐름 일치를 확립함으로써 최소한의 NFEs로 세밀한 세부 사항을 효과적으로 생성합니다. 양적 및 시각적 결과는 FlashVideo가 우수한 계산 효율성으로 최첨단 고해상도 비디오 생성을 달성한다는 것을 입증합니다. 또한, 이 이단계 설계는 사용자가 전체 해상도 생성에 앞서 초기 출력을 미리 볼 수 있도록 하여 계산 비용과 대기 시간을 크게 줄이고 상업적 타당성을 향상시킵니다.
English
DiT diffusion models have achieved great success in text-to-video generation, leveraging their scalability in model capacity and data scale. High content and motion fidelity aligned with text prompts, however, often require large model parameters and a substantial number of function evaluations (NFEs). Realistic and visually appealing details are typically reflected in high resolution outputs, further amplifying computational demands especially for single stage DiT models. To address these challenges, we propose a novel two stage framework, FlashVideo, which strategically allocates model capacity and NFEs across stages to balance generation fidelity and quality. In the first stage, prompt fidelity is prioritized through a low resolution generation process utilizing large parameters and sufficient NFEs to enhance computational efficiency. The second stage establishes flow matching between low and high resolutions, effectively generating fine details with minimal NFEs. Quantitative and visual results demonstrate that FlashVideo achieves state-of-the-art high resolution video generation with superior computational efficiency. Additionally, the two-stage design enables users to preview the initial output before committing to full resolution generation, thereby significantly reducing computational costs and wait times as well as enhancing commercial viability .

Summary

AI-Generated Summary

PDF223February 10, 2025