MotionShop: Trasferimento di Movimento Zero-Shot nei Modelli di Diffusione Video con Miscela di Guida dei Punteggi
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance
December 6, 2024
Autori: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
cs.AI
Abstract
In questo lavoro, proponiamo il primo approccio al trasferimento di movimento nel trasformatore di diffusione attraverso la Guida a Mischia di Punteggi (MSG), un quadro teoricamente fondato per il trasferimento di movimento nei modelli di diffusione. Il nostro principale contributo teorico risiede nella riformulazione del punteggio condizionale per decomporre il punteggio di movimento e il punteggio di contenuto nei modelli di diffusione. Formulando il trasferimento di movimento come una miscela di energie potenziali, MSG conserva naturalmente la composizione della scena e consente trasformazioni creative della scena mantenendo l'integrità dei modelli di movimento trasferiti. Questo campionamento innovativo opera direttamente sui modelli di diffusione video preaddestrati senza ulteriore addestramento o sintonizzazione. Attraverso estesi esperimenti, MSG dimostra una gestione di successo di scenari diversi, inclusi il trasferimento di movimento di oggetti singoli, multipli e tra oggetti, nonché il trasferimento di movimento della telecamera complesso. Inoltre, presentiamo MotionBench, il primo dataset di trasferimento di movimento composto da 200 video di origine e 1000 movimenti trasferiti, che coprono trasferimenti di oggetti singoli/multipli e movimenti di telecamera complessi.
English
In this work, we propose the first motion transfer approach in diffusion
transformer through Mixture of Score Guidance (MSG), a theoretically-grounded
framework for motion transfer in diffusion models. Our key theoretical
contribution lies in reformulating conditional score to decompose motion score
and content score in diffusion models. By formulating motion transfer as a
mixture of potential energies, MSG naturally preserves scene composition and
enables creative scene transformations while maintaining the integrity of
transferred motion patterns. This novel sampling operates directly on
pre-trained video diffusion models without additional training or fine-tuning.
Through extensive experiments, MSG demonstrates successful handling of diverse
scenarios including single object, multiple objects, and cross-object motion
transfer as well as complex camera motion transfer. Additionally, we introduce
MotionBench, the first motion transfer dataset consisting of 200 source videos
and 1000 transferred motions, covering single/multi-object transfers, and
complex camera motions.Summary
AI-Generated Summary