Ouroboros-Diffusion: Erforschung der konsistenten Inhaltsgenerierung in einer abstimmungsfreien Langvideo-Diffusion
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
January 15, 2025
Autoren: Jingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
cs.AI
Zusammenfassung
Die First-In-First-Out (FIFO) Video-Diffusion, auf einem vortrainierten Text-zu-Video-Modell aufbauend, hat sich kürzlich als effektiver Ansatz für die abstimmungsfreie Generierung langer Videos erwiesen. Diese Technik verwaltet eine Warteschlange von Video-Frames mit kontinuierlich zunehmendem Rauschen, indem sie kontinuierlich saubere Frames am Kopf der Warteschlange erzeugt, während am Ende Gaussisches Rauschen hinzugefügt wird. Allerdings hat FIFO-Diffusion oft Schwierigkeiten, die langfristige zeitliche Konsistenz in den generierten Videos aufrechtzuerhalten, aufgrund des Mangels an Modellierung der Korrespondenz zwischen den Frames. In diesem Paper schlagen wir Ouroboros-Diffusion vor, ein neuartiges Video-Denoising-Framework, das darauf abzielt, die strukturelle und inhaltliche (thematische) Konsistenz zu verbessern, um die Generierung konsistenter Videos beliebiger Länge zu ermöglichen. Speziell führen wir eine neue latente Abtasttechnik am Ende der Warteschlange ein, um die strukturelle Konsistenz zu verbessern und so für eine wahrnehmungsgemäß reibungslose Übergänge zwischen den Frames zu sorgen. Um die thematische Konsistenz zu verbessern, entwickeln wir einen Mechanismus namens Subject-Aware Cross-Frame Attention (SACFA), der Themen über kurze Segmente hinweg zwischen den Frames ausrichtet, um eine bessere visuelle Kohärenz zu erreichen. Darüber hinaus führen wir eine selbstrekurrente Führung ein. Diese Technik nutzt Informationen aus allen vorherigen saubereren Frames am Anfang der Warteschlange, um das Denoising der rauschigeren Frames am Ende zu leiten und so eine reiche und kontextuelle globale Informationsinteraktion zu fördern. Umfangreiche Experimente zur Generierung langer Videos auf dem VBench-Benchmark zeigen die Überlegenheit unserer Ouroboros-Diffusion, insbesondere in Bezug auf thematische Konsistenz, Bewegungsglattheit und zeitliche Konsistenz.
English
The first-in-first-out (FIFO) video diffusion, built on a pre-trained
text-to-video model, has recently emerged as an effective approach for
tuning-free long video generation. This technique maintains a queue of video
frames with progressively increasing noise, continuously producing clean frames
at the queue's head while Gaussian noise is enqueued at the tail. However,
FIFO-Diffusion often struggles to keep long-range temporal consistency in the
generated videos due to the lack of correspondence modeling across frames. In
this paper, we propose Ouroboros-Diffusion, a novel video denoising framework
designed to enhance structural and content (subject) consistency, enabling the
generation of consistent videos of arbitrary length. Specifically, we introduce
a new latent sampling technique at the queue tail to improve structural
consistency, ensuring perceptually smooth transitions among frames. To enhance
subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA)
mechanism, which aligns subjects across frames within short segments to achieve
better visual coherence. Furthermore, we introduce self-recurrent guidance.
This technique leverages information from all previous cleaner frames at the
front of the queue to guide the denoising of noisier frames at the end,
fostering rich and contextual global information interaction. Extensive
experiments of long video generation on the VBench benchmark demonstrate the
superiority of our Ouroboros-Diffusion, particularly in terms of subject
consistency, motion smoothness, and temporal consistency.Summary
AI-Generated Summary