Diffusione Avversaria Post-Training per la Generazione di Video in un Passaggio

Diffusion Adversarial Post-Training for One-Step Video Generation

January 14, 2025
Autori: Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
cs.AI

Abstract

I modelli di diffusione sono ampiamente utilizzati per la generazione di immagini e video, ma il loro processo di generazione iterativo è lento e costoso. Mentre gli approcci di distillazione esistenti hanno dimostrato il potenziale per la generazione in un solo passaggio nel dominio delle immagini, soffrono ancora di significativa degradazione della qualità. In questo lavoro, proponiamo l'Adversarial Post-Training (APT) contro dati reali seguendo il pre-training di diffusione per la generazione di video in un solo passaggio. Per migliorare la stabilità e la qualità dell'addestramento, introduciamo diverse migliorie all'architettura del modello e alle procedure di addestramento, insieme a un obiettivo di regolarizzazione R1 approssimato. Empiricamente, i nostri esperimenti mostrano che il nostro modello post-addestrato in modo avversario, Seaweed-APT, può generare video di 2 secondi, 1280x720, a 24fps in tempo reale utilizzando un singolo passaggio di valutazione in avanti. Inoltre, il nostro modello è in grado di generare immagini da 1024px in un solo passaggio, raggiungendo una qualità paragonabile ai metodi all'avanguardia.
English
The diffusion models are widely used for image and video generation, but their iterative generation process is slow and expansive. While existing distillation approaches have demonstrated the potential for one-step generation in the image domain, they still suffer from significant quality degradation. In this work, we propose Adversarial Post-Training (APT) against real data following diffusion pre-training for one-step video generation. To improve the training stability and quality, we introduce several improvements to the model architecture and training procedures, along with an approximated R1 regularization objective. Empirically, our experiments show that our adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720, 24fps videos in real time using a single forward evaluation step. Additionally, our model is capable of generating 1024px images in a single step, achieving quality comparable to state-of-the-art methods.

Summary

AI-Generated Summary

PDF294January 15, 2025