MotionShop: Trasferimento di Movimento Zero-Shot nei Modelli di Diffusione Video con Miscela di Guida dei Punteggi

MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

December 6, 2024
Autori: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
cs.AI

Abstract

In questo lavoro, proponiamo il primo approccio al trasferimento di movimento nel trasformatore di diffusione attraverso la Guida a Mischia di Punteggi (MSG), un quadro teoricamente fondato per il trasferimento di movimento nei modelli di diffusione. Il nostro principale contributo teorico risiede nella riformulazione del punteggio condizionale per decomporre il punteggio di movimento e il punteggio di contenuto nei modelli di diffusione. Formulando il trasferimento di movimento come una miscela di energie potenziali, MSG conserva naturalmente la composizione della scena e consente trasformazioni creative della scena mantenendo l'integrità dei modelli di movimento trasferiti. Questo campionamento innovativo opera direttamente sui modelli di diffusione video preaddestrati senza ulteriore addestramento o sintonizzazione. Attraverso estesi esperimenti, MSG dimostra una gestione di successo di scenari diversi, inclusi il trasferimento di movimento di oggetti singoli, multipli e tra oggetti, nonché il trasferimento di movimento della telecamera complesso. Inoltre, presentiamo MotionBench, il primo dataset di trasferimento di movimento composto da 200 video di origine e 1000 movimenti trasferiti, che coprono trasferimenti di oggetti singoli/multipli e movimenti di telecamera complessi.
English
In this work, we propose the first motion transfer approach in diffusion transformer through Mixture of Score Guidance (MSG), a theoretically-grounded framework for motion transfer in diffusion models. Our key theoretical contribution lies in reformulating conditional score to decompose motion score and content score in diffusion models. By formulating motion transfer as a mixture of potential energies, MSG naturally preserves scene composition and enables creative scene transformations while maintaining the integrity of transferred motion patterns. This novel sampling operates directly on pre-trained video diffusion models without additional training or fine-tuning. Through extensive experiments, MSG demonstrates successful handling of diverse scenarios including single object, multiple objects, and cross-object motion transfer as well as complex camera motion transfer. Additionally, we introduce MotionBench, the first motion transfer dataset consisting of 200 source videos and 1000 transferred motions, covering single/multi-object transfers, and complex camera motions.

Summary

AI-Generated Summary

PDF72December 10, 2024