Ouroboros-Diffusie: Het verkennen van consistente inhoudsgeneratie bij Tuning-vrije Lange Video Diffusie
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
January 15, 2025
Auteurs: Jingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
cs.AI
Samenvatting
De first-in-first-out (FIFO) videodiffusie, gebouwd op een voorgeleerd tekst-naar-video model, is recentelijk naar voren gekomen als een effectieve benadering voor afstemmingsvrije lange videogeneratie. Deze techniek onderhoudt een wachtrij van videoframes met progressief toenemend geluid, waarbij continu schone frames aan de kop van de wachtrij worden geproduceerd terwijl Gaussisch geluid aan de staart wordt toegevoegd. Echter, FIFO-Diffusie worstelt vaak met het behouden van consistente temporele samenhang op lange termijn in de gegenereerde video's vanwege het gebrek aan modellering van overeenkomsten tussen frames. In dit artikel stellen we Ouroboros-Diffusie voor, een nieuw videoruisverwijderingskader dat is ontworpen om de structurele en inhoudelijke (onderwerp) consistentie te verbeteren, waardoor de generatie van consistente video's van willekeurige lengte mogelijk wordt. Specifiek introduceren we een nieuwe latente bemonsteringstechniek aan de staart van de wachtrij om structurele consistentie te verbeteren, waardoor perceptueel soepele overgangen tussen frames worden gegarandeerd. Om onderwerpconsistentie te verbeteren, bedenken we een Mechanisme voor Onderwerpgerichte Kruisframe-Aandacht (SACFA), dat onderwerpen over frames binnen korte segmenten uitlijnt om een betere visuele samenhang te bereiken. Verder introduceren we zelf-terugkerende begeleiding. Deze techniek maakt gebruik van informatie van alle eerdere schonere frames aan de voorkant van de wachtrij om de ruisverwijdering van lawaaierige frames aan het einde te begeleiden, waardoor een rijke en contextuele wereldwijde informatie-interactie wordt bevorderd. Uitgebreide experimenten met lange videogeneratie op de VBench benchmark tonen de superioriteit van onze Ouroboros-Diffusie aan, met name op het gebied van onderwerpconsistentie, bewegingssmoothness en temporele consistentie.
English
The first-in-first-out (FIFO) video diffusion, built on a pre-trained
text-to-video model, has recently emerged as an effective approach for
tuning-free long video generation. This technique maintains a queue of video
frames with progressively increasing noise, continuously producing clean frames
at the queue's head while Gaussian noise is enqueued at the tail. However,
FIFO-Diffusion often struggles to keep long-range temporal consistency in the
generated videos due to the lack of correspondence modeling across frames. In
this paper, we propose Ouroboros-Diffusion, a novel video denoising framework
designed to enhance structural and content (subject) consistency, enabling the
generation of consistent videos of arbitrary length. Specifically, we introduce
a new latent sampling technique at the queue tail to improve structural
consistency, ensuring perceptually smooth transitions among frames. To enhance
subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA)
mechanism, which aligns subjects across frames within short segments to achieve
better visual coherence. Furthermore, we introduce self-recurrent guidance.
This technique leverages information from all previous cleaner frames at the
front of the queue to guide the denoising of noisier frames at the end,
fostering rich and contextual global information interaction. Extensive
experiments of long video generation on the VBench benchmark demonstrate the
superiority of our Ouroboros-Diffusion, particularly in terms of subject
consistency, motion smoothness, and temporal consistency.Summary
AI-Generated Summary