Оуроборос-Диффузия: Исследование Постоянного Генерирования Контента в Диффузии Длинных Видео без Настройки
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
January 15, 2025
Авторы: Jingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
cs.AI
Аннотация
Первым вошел — первым вышел (FIFO) видео-диффузия, основанная на предварительно обученной модели текст-видео, недавно стала эффективным подходом для генерации длинных видео без необходимости настройки. Эта техника поддерживает очередь видеокадров с постепенно увеличивающимся шумом, непрерывно создавая чистые кадры в начале очереди, в то время как гауссовский шум добавляется в конец. Однако FIFO-Диффузия часто испытывает затруднения с сохранением долгосрочной временной согласованности в создаваемых видео из-за отсутствия моделирования соответствия между кадрами. В данной статье мы предлагаем Ouroboros-Диффузию, новую структурированную систему видео-очистки, разработанную для улучшения структурной и содержательной (предметной) согласованности, обеспечивая создание согласованных видео произвольной длины. Конкретно, мы представляем новый метод сэмплирования латентных переменных в конце очереди для улучшения структурной согласованности, обеспечивая визуально плавные переходы между кадрами. Для улучшения предметной согласованности мы разрабатываем механизм SACFA (Subject-Aware Cross-Frame Attention), который выравнивает предметы на кадрах в рамках коротких сегментов для достижения лучшей визуальной согласованности. Кроме того, мы вводим саморекуррентное руководство. Эта техника использует информацию со всех предыдущих чистых кадров в начале очереди для направления очистки более шумных кадров в конце, способствуя богатому и контекстному взаимодействию глобальной информации. Обширные эксперименты по генерации длинных видео на бенчмарке VBench демонстрируют превосходство нашей Ouroboros-Диффузии, особенно в плане предметной согласованности, плавности движения и временной согласованности.
English
The first-in-first-out (FIFO) video diffusion, built on a pre-trained
text-to-video model, has recently emerged as an effective approach for
tuning-free long video generation. This technique maintains a queue of video
frames with progressively increasing noise, continuously producing clean frames
at the queue's head while Gaussian noise is enqueued at the tail. However,
FIFO-Diffusion often struggles to keep long-range temporal consistency in the
generated videos due to the lack of correspondence modeling across frames. In
this paper, we propose Ouroboros-Diffusion, a novel video denoising framework
designed to enhance structural and content (subject) consistency, enabling the
generation of consistent videos of arbitrary length. Specifically, we introduce
a new latent sampling technique at the queue tail to improve structural
consistency, ensuring perceptually smooth transitions among frames. To enhance
subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA)
mechanism, which aligns subjects across frames within short segments to achieve
better visual coherence. Furthermore, we introduce self-recurrent guidance.
This technique leverages information from all previous cleaner frames at the
front of the queue to guide the denoising of noisier frames at the end,
fostering rich and contextual global information interaction. Extensive
experiments of long video generation on the VBench benchmark demonstrate the
superiority of our Ouroboros-Diffusion, particularly in terms of subject
consistency, motion smoothness, and temporal consistency.Summary
AI-Generated Summary