Suggerimento di Movimento: Controllo della Generazione Video tramite Traguardi di Movimento

Abstract

Il controllo del movimento è cruciale per generare contenuti video espressivi e coinvolgenti; tuttavia, la maggior parte dei modelli esistenti di generazione video si basa principalmente su prompt di testo per il controllo, che faticano a catturare le sfumature delle azioni dinamiche e delle composizioni temporali. A questo scopo, addestriamo un modello di generazione video condizionato a traiettorie di movimento spazio-temporali sparse o dense. In contrasto con il lavoro precedente sulla condizionatura del movimento, questa rappresentazione flessibile può codificare qualsiasi numero di traiettorie, movimenti specifici degli oggetti o del contesto globale e movimenti temporalmente sparsi; a causa della sua flessibilità ci riferiamo a questa condizionatura come prompt di movimento. Mentre gli utenti possono specificare direttamente traiettorie sparse, mostriamo anche come tradurre richieste degli utenti di alto livello in prompt di movimento dettagliati, semi-densi, un processo che definiamo espansione del prompt di movimento. Dimostriamo la versatilità del nostro approccio attraverso varie applicazioni, tra cui il controllo del movimento della telecamera e degli oggetti, "interagire" con un'immagine, trasferimento di movimento e modifica di immagini. I nostri risultati mostrano comportamenti emergenti, come la fisica realistica, suggerendo il potenziale dei prompt di movimento per esplorare i modelli video e interagire con i futuri modelli generativi del mondo. Infine, valutiamo quantitativamente, conduciamo uno studio umano e dimostriamo una forte performance. I risultati video sono disponibili sulla nostra pagina web: https://motion-prompting.github.io/

English

Motion control is crucial for generating expressive and compelling video content; however, most existing video generation models rely mainly on text prompts for control, which struggle to capture the nuances of dynamic actions and temporal compositions. To this end, we train a video generation model conditioned on spatio-temporally sparse or dense motion trajectories. In contrast to prior motion conditioning work, this flexible representation can encode any number of trajectories, object-specific or global scene motion, and temporally sparse motion; due to its flexibility we refer to this conditioning as motion prompts. While users may directly specify sparse trajectories, we also show how to translate high-level user requests into detailed, semi-dense motion prompts, a process we term motion prompt expansion. We demonstrate the versatility of our approach through various applications, including camera and object motion control, "interacting" with an image, motion transfer, and image editing. Our results showcase emergent behaviors, such as realistic physics, suggesting the potential of motion prompts for probing video models and interacting with future generative world models. Finally, we evaluate quantitatively, conduct a human study, and demonstrate strong performance. Video results are available on our webpage: https://motion-prompting.github.io/

Suggerimento di Movimento: Controllo della Generazione Video tramite Traguardi di Movimento

Motion Prompting: Controlling Video Generation with Motion Trajectories

Abstract

Support