Suggerimento di Movimento: Controllo della Generazione Video tramite Traguardi di Movimento
Motion Prompting: Controlling Video Generation with Motion Trajectories
December 3, 2024
Autori: Daniel Geng, Charles Herrmann, Junhwa Hur, Forrester Cole, Serena Zhang, Tobias Pfaff, Tatiana Lopez-Guevara, Carl Doersch, Yusuf Aytar, Michael Rubinstein, Chen Sun, Oliver Wang, Andrew Owens, Deqing Sun
cs.AI
Abstract
Il controllo del movimento è cruciale per generare contenuti video espressivi e coinvolgenti; tuttavia, la maggior parte dei modelli esistenti di generazione video si basa principalmente su prompt di testo per il controllo, che faticano a catturare le sfumature delle azioni dinamiche e delle composizioni temporali. A questo scopo, addestriamo un modello di generazione video condizionato a traiettorie di movimento spazio-temporali sparse o dense. In contrasto con il lavoro precedente sulla condizionatura del movimento, questa rappresentazione flessibile può codificare qualsiasi numero di traiettorie, movimenti specifici degli oggetti o del contesto globale e movimenti temporalmente sparsi; a causa della sua flessibilità ci riferiamo a questa condizionatura come prompt di movimento. Mentre gli utenti possono specificare direttamente traiettorie sparse, mostriamo anche come tradurre richieste degli utenti di alto livello in prompt di movimento dettagliati, semi-densi, un processo che definiamo espansione del prompt di movimento. Dimostriamo la versatilità del nostro approccio attraverso varie applicazioni, tra cui il controllo del movimento della telecamera e degli oggetti, "interagire" con un'immagine, trasferimento di movimento e modifica di immagini. I nostri risultati mostrano comportamenti emergenti, come la fisica realistica, suggerendo il potenziale dei prompt di movimento per esplorare i modelli video e interagire con i futuri modelli generativi del mondo. Infine, valutiamo quantitativamente, conduciamo uno studio umano e dimostriamo una forte performance. I risultati video sono disponibili sulla nostra pagina web: https://motion-prompting.github.io/
English
Motion control is crucial for generating expressive and compelling video
content; however, most existing video generation models rely mainly on text
prompts for control, which struggle to capture the nuances of dynamic actions
and temporal compositions. To this end, we train a video generation model
conditioned on spatio-temporally sparse or dense motion trajectories. In
contrast to prior motion conditioning work, this flexible representation can
encode any number of trajectories, object-specific or global scene motion, and
temporally sparse motion; due to its flexibility we refer to this conditioning
as motion prompts. While users may directly specify sparse trajectories, we
also show how to translate high-level user requests into detailed, semi-dense
motion prompts, a process we term motion prompt expansion. We demonstrate the
versatility of our approach through various applications, including camera and
object motion control, "interacting" with an image, motion transfer, and image
editing. Our results showcase emergent behaviors, such as realistic physics,
suggesting the potential of motion prompts for probing video models and
interacting with future generative world models. Finally, we evaluate
quantitatively, conduct a human study, and demonstrate strong performance.
Video results are available on our webpage: https://motion-prompting.github.io/Summary
AI-Generated Summary