Mit dem Strom gehen: Bewegungssteuerbare Videodiffusionsmodelle unter Verwendung von echtzeitverzerrtem Rauschen
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
January 14, 2025
Autoren: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
cs.AI
Zusammenfassung
Die generative Modellierung zielt darauf ab, zufälliges Rauschen in strukturierte Ausgaben zu transformieren. In dieser Arbeit verbessern wir Video-Diffusionsmodelle, indem wir die Bewegungssteuerung über strukturierte latente Rauschproben ermöglichen. Dies wird durch eine einfache Änderung der Daten erreicht: Wir bearbeiten die Trainingsvideos vor, um strukturiertes Rauschen zu erzeugen. Folglich ist unsere Methode unabhängig vom Design des Diffusionsmodells und erfordert keine Änderungen an Modellarchitekturen oder Trainingspipelines. Speziell schlagen wir einen neuartigen Rauschverzerrungsalgorithmus vor, der schnell genug ist, um in Echtzeit ausgeführt zu werden. Dieser ersetzt zufällige zeitliche Gaußsche Verteilung durch korreliert verzerrtes Rauschen, das aus optischen Flussfeldern abgeleitet ist, während die räumliche Gaußsche Verteilung erhalten bleibt. Die Effizienz unseres Algorithmus ermöglicht es uns, moderne Video-Diffusions-Basismodelle mit verzerrtem Rauschen feinzutunen, mit minimalem Overhead, und eine umfassende Lösung für eine Vielzahl von benutzerfreundlichen Bewegungssteuerungen bereitzustellen: Steuerung lokaler Objektbewegungen, Steuerung globaler Kamerabewegungen und Bewegungsübertragung. Die Harmonisierung zwischen zeitlicher Kohärenz und räumlicher Gaußscher Verteilung in unserem verzerrten Rauschen führt zu effektiver Bewegungssteuerung, während die Pixelqualität pro Frame erhalten bleibt. Umfangreiche Experimente und Benutzerstudien zeigen die Vorteile unserer Methode auf, die sie zu einem robusten und skalierbaren Ansatz zur Steuerung von Bewegungen in Video-Diffusionsmodellen machen. Videoergebnisse sind auf unserer Webseite verfügbar: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Der Quellcode und die Modell-Checkpoints sind auf GitHub verfügbar: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
English
Generative modeling aims to transform random noise into structured outputs.
In this work, we enhance video diffusion models by allowing motion control via
structured latent noise sampling. This is achieved by just a change in data: we
pre-process training videos to yield structured noise. Consequently, our method
is agnostic to diffusion model design, requiring no changes to model
architectures or training pipelines. Specifically, we propose a novel noise
warping algorithm, fast enough to run in real time, that replaces random
temporal Gaussianity with correlated warped noise derived from optical flow
fields, while preserving the spatial Gaussianity. The efficiency of our
algorithm enables us to fine-tune modern video diffusion base models using
warped noise with minimal overhead, and provide a one-stop solution for a wide
range of user-friendly motion control: local object motion control, global
camera movement control, and motion transfer. The harmonization between
temporal coherence and spatial Gaussianity in our warped noise leads to
effective motion control while maintaining per-frame pixel quality. Extensive
experiments and user studies demonstrate the advantages of our method, making
it a robust and scalable approach for controlling motion in video diffusion
models. Video results are available on our webpage:
https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Source code
and model checkpoints are available on GitHub:
https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.Summary
AI-Generated Summary