흐름에 맡기다: 실시간 왜곡된 잡음을 이용한 움직임 제어 가능한 비디오 확산 모델
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
January 14, 2025
저자: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
cs.AI
초록
생성 모델링은 무작위 잡음을 구조화된 출력물로 변환하는 것을 목표로 합니다.
본 연구에서는 움직임 제어를 가능하게 함으로써 비디오 확산 모델을 향상시킵니다.
구조화된 잠재적 잡음 샘플링을 허용함으로써 이를 달성합니다. 이는 데이터의 변경만으로 이루어집니다: 우리는 훈련 비디오를 전처리하여 구조화된 잡음을 생성합니다. 결과적으로, 우리의 방법은 확산 모델 설계에 중립적이며, 모델 아키텍처나 훈련 파이프라인을 변경할 필요가 없습니다. 구체적으로, 우리는 새로운 잡음 왜곡 알고리즘을 제안합니다. 이 알고리즘은 실시간으로 실행할 수 있을 만큼 빠르며, 광학 흐름 필드에서 파생된 상관된 왜곡된 잡음으로 무작위 시간적 가우시안성을 대체하면서 공간적 가우시안성을 보존합니다. 우리의 알고리즘의 효율성은 왜곡된 잡음을 사용하여 최신 비디오 확산 기본 모델을 세밀하게 조정할 수 있게 하며, 지연을 최소화하면서 다양한 사용자 친화적 움직임 제어에 대한 일괄적인 솔루션을 제공합니다: 지역 객체 움직임 제어, 전역 카메라 이동 제어 및 움직임 전송. 우리의 왜곡된 잡음에서의 시간적 일관성과 공간적 가우시안성의 조화는 프레임 당 픽셀 품질을 유지하면서 효과적인 움직임 제어로 이어집니다. 광범위한 실험과 사용자 연구를 통해 우리의 방법의 장점이 입증되었으며, 비디오 확산 모델에서 움직임을 제어하기 위한 견고하고 확장 가능한 접근 방식으로 만들어졌음을 확인할 수 있습니다. 비디오 결과물은 저희 웹페이지에서 확인할 수 있습니다: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. 소스 코드와 모델 체크포인트는 GitHub에서 확인할 수 있습니다: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
English
Generative modeling aims to transform random noise into structured outputs.
In this work, we enhance video diffusion models by allowing motion control via
structured latent noise sampling. This is achieved by just a change in data: we
pre-process training videos to yield structured noise. Consequently, our method
is agnostic to diffusion model design, requiring no changes to model
architectures or training pipelines. Specifically, we propose a novel noise
warping algorithm, fast enough to run in real time, that replaces random
temporal Gaussianity with correlated warped noise derived from optical flow
fields, while preserving the spatial Gaussianity. The efficiency of our
algorithm enables us to fine-tune modern video diffusion base models using
warped noise with minimal overhead, and provide a one-stop solution for a wide
range of user-friendly motion control: local object motion control, global
camera movement control, and motion transfer. The harmonization between
temporal coherence and spatial Gaussianity in our warped noise leads to
effective motion control while maintaining per-frame pixel quality. Extensive
experiments and user studies demonstrate the advantages of our method, making
it a robust and scalable approach for controlling motion in video diffusion
models. Video results are available on our webpage:
https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Source code
and model checkpoints are available on GitHub:
https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.Summary
AI-Generated Summary