Ouroboros-Diffusion: Esplorazione della Generazione Coerente di Contenuti in Diffusione di Video Lunghi Senza Regolazione
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
January 15, 2025
Autori: Jingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
cs.AI
Abstract
La diffusione video first-in-first-out (FIFO), basata su un modello pre-addestrato di testo-video, è recentemente emersa come un approccio efficace per la generazione di video di lunga durata senza necessità di sintonizzazione. Questa tecnica mantiene una coda di frame video con rumore progressivamente crescente, producendo continuamente frame puliti in testa alla coda mentre il rumore gaussiano viene aggiunto in coda. Tuttavia, la FIFO-Diffusion spesso fatica a mantenere la coerenza temporale a lungo raggio nei video generati a causa della mancanza di modellizzazione della corrispondenza tra i frame. In questo articolo, proponiamo Ouroboros-Diffusion, un nuovo framework di denoising video progettato per migliorare la coerenza strutturale e di contenuto (soggetto), consentendo la generazione di video coerenti di lunghezza arbitraria. In particolare, introduciamo una nuova tecnica di campionamento latente in coda alla coda per migliorare la coerenza strutturale, garantendo transizioni percettivamente fluide tra i frame. Per migliorare la coerenza del soggetto, ideiamo un meccanismo di Attenzione Incrociata tra Frame Consapevole del Soggetto (SACFA), che allinea i soggetti tra i frame all'interno di segmenti brevi per ottenere una migliore coerenza visiva. Inoltre, introduciamo un'orientamento auto-ricorrente. Questa tecnica sfrutta le informazioni di tutti i frame più puliti precedenti in testa alla coda per guidare il denoising dei frame più rumorosi alla fine, favorire un'interazione ricca e contestuale delle informazioni globali. Estesi esperimenti di generazione di video di lunga durata sul benchmark VBench dimostrano la superiorità del nostro Ouroboros-Diffusion, in particolare in termini di coerenza del soggetto, fluidità del movimento e coerenza temporale.
English
The first-in-first-out (FIFO) video diffusion, built on a pre-trained
text-to-video model, has recently emerged as an effective approach for
tuning-free long video generation. This technique maintains a queue of video
frames with progressively increasing noise, continuously producing clean frames
at the queue's head while Gaussian noise is enqueued at the tail. However,
FIFO-Diffusion often struggles to keep long-range temporal consistency in the
generated videos due to the lack of correspondence modeling across frames. In
this paper, we propose Ouroboros-Diffusion, a novel video denoising framework
designed to enhance structural and content (subject) consistency, enabling the
generation of consistent videos of arbitrary length. Specifically, we introduce
a new latent sampling technique at the queue tail to improve structural
consistency, ensuring perceptually smooth transitions among frames. To enhance
subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA)
mechanism, which aligns subjects across frames within short segments to achieve
better visual coherence. Furthermore, we introduce self-recurrent guidance.
This technique leverages information from all previous cleaner frames at the
front of the queue to guide the denoising of noisier frames at the end,
fostering rich and contextual global information interaction. Extensive
experiments of long video generation on the VBench benchmark demonstrate the
superiority of our Ouroboros-Diffusion, particularly in terms of subject
consistency, motion smoothness, and temporal consistency.Summary
AI-Generated Summary