Ga met de stroom mee: Video Diffusie Modellen met Beweegbare Controle door middel van Real-Time Verstoorde Ruis
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
January 14, 2025
Auteurs: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
cs.AI
Samenvatting
Generatief modelleren heeft als doel willekeurig geluid om te zetten in gestructureerde uitvoer. In dit werk verbeteren we videodiffusiemodellen door bewegingscontrole mogelijk te maken via gestructureerde latente geluidsmonsters. Dit wordt bereikt door slechts een verandering in de gegevens: we bewerken trainingsvideo's om gestructureerd geluid te produceren. Als gevolg hiervan is onze methode onafhankelijk van het ontwerp van het diffusiemodel, waarbij geen wijzigingen in modelarchitecturen of trainingspijplijnen nodig zijn. Specifiek stellen we een nieuw geluidsvervormingsalgoritme voor, snel genoeg om in realtime te draaien, dat willekeurige temporale Gaussiërs vervangt door gecorreleerd vervormd geluid afgeleid van optische stroomvelden, terwijl de ruimtelijke Gaussiërs behouden blijven. De efficiëntie van ons algoritme stelt ons in staat om moderne basisvideodiffusiemodellen fijn af te stemmen met vervormd geluid met minimale overhead, en een alles-in-één oplossing te bieden voor een breed scala aan gebruiksvriendelijke bewegingscontrole: lokale objectbewegingscontrole, wereldwijde camerabewegingscontrole en bewegingsoverdracht. De harmonisatie tussen temporale coherentie en ruimtelijke Gaussiërs in ons vervormd geluid leidt tot effectieve bewegingscontrole met behoud van pixelkwaliteit per frame. Uitgebreide experimenten en gebruikersstudies tonen de voordelen van onze methode aan, waardoor het een robuuste en schaalbare aanpak is voor het regelen van beweging in videodiffusiemodellen. Videoregistraties zijn beschikbaar op onze webpagina: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. De broncode en modelcontrolepunten zijn beschikbaar op GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
English
Generative modeling aims to transform random noise into structured outputs.
In this work, we enhance video diffusion models by allowing motion control via
structured latent noise sampling. This is achieved by just a change in data: we
pre-process training videos to yield structured noise. Consequently, our method
is agnostic to diffusion model design, requiring no changes to model
architectures or training pipelines. Specifically, we propose a novel noise
warping algorithm, fast enough to run in real time, that replaces random
temporal Gaussianity with correlated warped noise derived from optical flow
fields, while preserving the spatial Gaussianity. The efficiency of our
algorithm enables us to fine-tune modern video diffusion base models using
warped noise with minimal overhead, and provide a one-stop solution for a wide
range of user-friendly motion control: local object motion control, global
camera movement control, and motion transfer. The harmonization between
temporal coherence and spatial Gaussianity in our warped noise leads to
effective motion control while maintaining per-frame pixel quality. Extensive
experiments and user studies demonstrate the advantages of our method, making
it a robust and scalable approach for controlling motion in video diffusion
models. Video results are available on our webpage:
https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Source code
and model checkpoints are available on GitHub:
https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.Summary
AI-Generated Summary