Difusão Adversarial Pós-Treinamento para Geração de Vídeo em um Passo
Diffusion Adversarial Post-Training for One-Step Video Generation
January 14, 2025
Autores: Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
cs.AI
Resumo
Os modelos de difusão são amplamente utilizados para geração de imagens e vídeos, mas seu processo iterativo de geração é lento e dispendioso. Embora abordagens de destilação existentes tenham demonstrado o potencial para geração em um único passo no domínio de imagens, ainda sofrem de degradação significativa na qualidade. Neste trabalho, propomos o Pós-Treinamento Adversarial (APT) contra dados reais seguindo o pré-treinamento de difusão para geração de vídeo em um único passo. Para melhorar a estabilidade e qualidade do treinamento, introduzimos várias melhorias na arquitetura do modelo e nos procedimentos de treinamento, juntamente com um objetivo de regularização R1 aproximado. Empiricamente, nossos experimentos mostram que nosso modelo pós-treinado adversarial, Seaweed-APT, pode gerar vídeos de 2 segundos, 1280x720, 24fps em tempo real usando uma única etapa de avaliação direta. Além disso, nosso modelo é capaz de gerar imagens de 1024px em um único passo, alcançando qualidade comparável aos métodos de ponta.
English
The diffusion models are widely used for image and video generation, but
their iterative generation process is slow and expansive. While existing
distillation approaches have demonstrated the potential for one-step generation
in the image domain, they still suffer from significant quality degradation. In
this work, we propose Adversarial Post-Training (APT) against real data
following diffusion pre-training for one-step video generation. To improve the
training stability and quality, we introduce several improvements to the model
architecture and training procedures, along with an approximated R1
regularization objective. Empirically, our experiments show that our
adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720,
24fps videos in real time using a single forward evaluation step. Additionally,
our model is capable of generating 1024px images in a single step, achieving
quality comparable to state-of-the-art methods.Summary
AI-Generated Summary