Ouroboros-Diffusion: Explorando Geração de Conteúdo Consistente em Difusão de Vídeo Longo sem Ajustes
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
January 15, 2025
Autores: Jingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
cs.AI
Resumo
A difusão de vídeo first-in-first-out (FIFO), construída com base em um modelo pré-treinado de texto-para-vídeo, surgiu recentemente como uma abordagem eficaz para geração de vídeos longos sem ajustes. Essa técnica mantém uma fila de quadros de vídeo com ruído progressivamente crescente, produzindo continuamente quadros limpos na cabeça da fila enquanto ruído gaussiano é enfileirado na cauda. No entanto, a FIFO-Diffusion frequentemente enfrenta dificuldades para manter consistência temporal de longo alcance nos vídeos gerados devido à falta de modelagem de correspondência entre os quadros. Neste artigo, propomos a Ouroboros-Diffusion, um novo framework de denoising de vídeo projetado para aprimorar a consistência estrutural e de conteúdo (assunto), possibilitando a geração de vídeos consistentes de comprimento arbitrário. Especificamente, introduzimos uma nova técnica de amostragem latente na cauda da fila para melhorar a consistência estrutural, garantindo transições perceptualmente suaves entre os quadros. Para aprimorar a consistência de assunto, desenvolvemos um mecanismo de Atenção Cruzada Entre Quadros Consciente do Assunto (SACFA), que alinha os assuntos entre os quadros dentro de segmentos curtos para alcançar melhor coerência visual. Além disso, introduzimos orientação autorrecorrente. Essa técnica aproveita informações de todos os quadros limpos anteriores na frente da fila para orientar o denoising dos quadros mais ruidosos no final, promovendo uma interação rica e contextual de informações globais. Experimentos extensos de geração de vídeos longos no benchmark VBench demonstram a superioridade de nossa Ouroboros-Diffusion, especialmente em termos de consistência de assunto, suavidade de movimento e consistência temporal.
English
The first-in-first-out (FIFO) video diffusion, built on a pre-trained
text-to-video model, has recently emerged as an effective approach for
tuning-free long video generation. This technique maintains a queue of video
frames with progressively increasing noise, continuously producing clean frames
at the queue's head while Gaussian noise is enqueued at the tail. However,
FIFO-Diffusion often struggles to keep long-range temporal consistency in the
generated videos due to the lack of correspondence modeling across frames. In
this paper, we propose Ouroboros-Diffusion, a novel video denoising framework
designed to enhance structural and content (subject) consistency, enabling the
generation of consistent videos of arbitrary length. Specifically, we introduce
a new latent sampling technique at the queue tail to improve structural
consistency, ensuring perceptually smooth transitions among frames. To enhance
subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA)
mechanism, which aligns subjects across frames within short segments to achieve
better visual coherence. Furthermore, we introduce self-recurrent guidance.
This technique leverages information from all previous cleaner frames at the
front of the queue to guide the denoising of noisier frames at the end,
fostering rich and contextual global information interaction. Extensive
experiments of long video generation on the VBench benchmark demonstrate the
superiority of our Ouroboros-Diffusion, particularly in terms of subject
consistency, motion smoothness, and temporal consistency.Summary
AI-Generated Summary