Диффузионное адверсариальное послетренировочное обучение для генерации видео за один шаг

Diffusion Adversarial Post-Training for One-Step Video Generation

January 14, 2025
Авторы: Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
cs.AI

Аннотация

Модели диффузии широко используются для генерации изображений и видео, однако их итеративный процесс генерации медленный и затратный. В то время как существующие подходы к дистилляции продемонстрировали потенциал для одношаговой генерации в области изображений, они все еще страдают от значительного снижения качества. В данной работе мы предлагаем метод адверсариального послетренировочного обучения (APT) на реальных данных после предварительного обучения по диффузии для одношаговой генерации видео. Для улучшения стабильности обучения и качества мы внедряем несколько улучшений в архитектуру модели и процедуры обучения, а также целевую функцию регуляризации R1 с приближенным значением. Эмпирические данные наших экспериментов показывают, что наша модель, обученная адверсариальным послетренировочным методом, Seaweed-APT, способна генерировать видео 2 секундной длительности, разрешением 1280x720 пикселей и частотой кадров 24 в реальном времени с использованием одного шага прямого расчета. Кроме того, наша модель способна генерировать изображения размером 1024 пикселя в один шаг, достигая качества, сравнимого с передовыми методами.
English
The diffusion models are widely used for image and video generation, but their iterative generation process is slow and expansive. While existing distillation approaches have demonstrated the potential for one-step generation in the image domain, they still suffer from significant quality degradation. In this work, we propose Adversarial Post-Training (APT) against real data following diffusion pre-training for one-step video generation. To improve the training stability and quality, we introduce several improvements to the model architecture and training procedures, along with an approximated R1 regularization objective. Empirically, our experiments show that our adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720, 24fps videos in real time using a single forward evaluation step. Additionally, our model is capable of generating 1024px images in a single step, achieving quality comparable to state-of-the-art methods.

Summary

AI-Generated Summary

PDF294January 15, 2025