ChatPaper.aiChatPaper

한 단계 비디오 생성을 위한 확산 적대적 사후 훈련

Diffusion Adversarial Post-Training for One-Step Video Generation

January 14, 2025
저자: Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
cs.AI

초록

확산 모델은 이미지 및 비디오 생성에 널리 사용되지만, 그들의 반복적 생성 과정은 느리고 비용이 많이 듭니다. 기존의 증류 접근법은 이미지 도메인에서 한 단계 생성의 잠재력을 보여 주었지만, 여전히 상당한 품질 저하를 겪고 있습니다. 본 연구에서는 확산 사전 훈련에 이어 실제 데이터에 대항하는 Adversarial Post-Training (APT)을 제안하여 한 단계 비디오 생성을 위한 것입니다. 훈련 안정성과 품질을 향상시키기 위해 모델 구조 및 훈련 절차에 여러 가지 개선 사항을 도입하고 근사화된 R1 정규화 목표를 소개합니다. 경험적으로, 우리의 실험은 Seaweed-APT라는 적대적으로 후속 훈련된 모델이 실시간으로 2초, 1280x720, 24fps 비디오를 단일 전방 평가 단계를 사용하여 생성할 수 있음을 보여줍니다. 게다가, 우리 모델은 단일 단계로 1024px 이미지를 생성할 수 있으며, 최첨단 방법과 비교할 수 있는 품질을 달성합니다.
English
The diffusion models are widely used for image and video generation, but their iterative generation process is slow and expansive. While existing distillation approaches have demonstrated the potential for one-step generation in the image domain, they still suffer from significant quality degradation. In this work, we propose Adversarial Post-Training (APT) against real data following diffusion pre-training for one-step video generation. To improve the training stability and quality, we introduce several improvements to the model architecture and training procedures, along with an approximated R1 regularization objective. Empirically, our experiments show that our adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720, 24fps videos in real time using a single forward evaluation step. Additionally, our model is capable of generating 1024px images in a single step, achieving quality comparable to state-of-the-art methods.

Summary

AI-Generated Summary

PDF334January 15, 2025