Diffusion Adversarial Post-Training für die Ein-Schritt-Videoerzeugung
Diffusion Adversarial Post-Training for One-Step Video Generation
January 14, 2025
Autoren: Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
cs.AI
Zusammenfassung
Die Diffusionsmodelle werden weit verbreitet für die Generierung von Bildern und Videos eingesetzt, jedoch ist ihr iterativer Generierungsprozess langsam und aufwendig. Während bestehende Destillationsansätze das Potenzial für die Ein-Schritt-Generierung im Bildbereich gezeigt haben, leiden sie immer noch unter signifikanter Qualitätsverschlechterung. In dieser Arbeit schlagen wir das Adversarial Post-Training (APT) gegen reale Daten nach der Diffusions-Vortrainierung für die Ein-Schritt-Video-Generierung vor. Um die Trainingsstabilität und -qualität zu verbessern, führen wir mehrere Verbesserungen an der Modellarchitektur und den Trainingsverfahren ein, zusammen mit einem approximierten R1-Regularisierungsziel. Empirisch zeigen unsere Experimente, dass unser adversarial nachtrainiertes Modell, Seaweed-APT, in Echtzeit 2-Sekunden-Videos mit 1280x720 Pixeln und 24fps generieren kann, indem es einen einzigen Vorwärtsschritt ausführt. Darüber hinaus ist unser Modell in der Lage, 1024px-Bilder in einem Schritt zu generieren und eine Qualität zu erreichen, die mit state-of-the-art Methoden vergleichbar ist.
English
The diffusion models are widely used for image and video generation, but
their iterative generation process is slow and expansive. While existing
distillation approaches have demonstrated the potential for one-step generation
in the image domain, they still suffer from significant quality degradation. In
this work, we propose Adversarial Post-Training (APT) against real data
following diffusion pre-training for one-step video generation. To improve the
training stability and quality, we introduce several improvements to the model
architecture and training procedures, along with an approximated R1
regularization objective. Empirically, our experiments show that our
adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720,
24fps videos in real time using a single forward evaluation step. Additionally,
our model is capable of generating 1024px images in a single step, achieving
quality comparable to state-of-the-art methods.Summary
AI-Generated Summary