ChatPaper.aiChatPaper

우로보로스 확산: 튜닝 없이 장기 비디오 확산에서 일관된 콘텐츠 생성 탐구

Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion

January 15, 2025
저자: Jingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
cs.AI

초록

선입선출(FIFO) 비디오 확산은 사전 훈련된 텍스트-비디오 모델을 기반으로 구축되어 최근에 튜닝이 필요 없는 장기 비디오 생성을 위한 효과적인 방법으로 등장했습니다. 이 기술은 점진적으로 증가하는 잡음을 가진 비디오 프레임 대기열을 유지하며, 대기열의 맨 앞에서 깨끗한 프레임을 지속적으로 생성하면서 가우시안 잡음을 꼬리에 넣습니다. 그러나 FIFO-확산은 프레임 간 일치 모델링 부족으로 인해 생성된 비디오에서 장거리 시간적 일관성을 유지하는 데 어려움을 겪습니다. 본 논문에서는 임의 길이의 일관된 비디오 생성을 가능하게 하는 구조 및 콘텐츠(주제) 일관성을 향상시키기 위해 설계된 혁신적인 비디오 소음 제거 프레임워크인 우로보로스-확산을 제안합니다. 구조적 일관성을 향상시키기 위해 대기열 꼬리에 새로운 잠재 샘플링 기술을 도입하여 프레임 간 간헐적인 부드러운 전환을 보장합니다. 주제 일관성을 향상시키기 위해 단일 세그먼트 내에서 프레임 간 주제를 정렬하는 주제 인식 교차 프레임 어텐션(SACFA) 메커니즘을 고안했습니다. 더불어, 이전의 모든 더 깨끗한 프레임에서 정보를 활용하여 대기열 앞부분의 프레임을 가이드하여 끝에서 더 노이지한 프레임의 소음 제거를 지원하는 자기 반복 가이던스를 소개했습니다. VBench 벤치마크에서의 장기 비디오 생성 실험을 통해 우리의 우로보로스-확산이 주제 일관성, 움직임 부드러움 및 시간적 일관성 측면에서 우수함을 입증했습니다.
English
The first-in-first-out (FIFO) video diffusion, built on a pre-trained text-to-video model, has recently emerged as an effective approach for tuning-free long video generation. This technique maintains a queue of video frames with progressively increasing noise, continuously producing clean frames at the queue's head while Gaussian noise is enqueued at the tail. However, FIFO-Diffusion often struggles to keep long-range temporal consistency in the generated videos due to the lack of correspondence modeling across frames. In this paper, we propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structural and content (subject) consistency, enabling the generation of consistent videos of arbitrary length. Specifically, we introduce a new latent sampling technique at the queue tail to improve structural consistency, ensuring perceptually smooth transitions among frames. To enhance subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA) mechanism, which aligns subjects across frames within short segments to achieve better visual coherence. Furthermore, we introduce self-recurrent guidance. This technique leverages information from all previous cleaner frames at the front of the queue to guide the denoising of noisier frames at the end, fostering rich and contextual global information interaction. Extensive experiments of long video generation on the VBench benchmark demonstrate the superiority of our Ouroboros-Diffusion, particularly in terms of subject consistency, motion smoothness, and temporal consistency.

Summary

AI-Generated Summary

PDF122January 16, 2025