ObjCtrl-2.5D: Controllo degli oggetti senza addestramento con pose della telecamera
ObjCtrl-2.5D: Training-free Object Control with Camera Poses
December 10, 2024
Autori: Zhouxia Wang, Yushi Lan, Shangchen Zhou, Chen Change Loy
cs.AI
Abstract
Questo studio mira a ottenere un controllo degli oggetti più preciso e versatile nella generazione immagine-video (I2V). I metodi attuali rappresentano tipicamente il movimento spaziale degli oggetti di destinazione con traiettorie 2D, che spesso non riescono a catturare l'intenzione dell'utente e producono frequentemente risultati innaturali. Per migliorare il controllo, presentiamo ObjCtrl-2.5D, un approccio di controllo degli oggetti senza addestramento che utilizza una traiettoria 3D, estesa da una traiettoria 2D con informazioni sulla profondità, come segnale di controllo. Modellando il movimento dell'oggetto come movimento della telecamera, ObjCtrl-2.5D rappresenta la traiettoria 3D come una sequenza di pose della telecamera, consentendo il controllo del movimento dell'oggetto utilizzando un modello di generazione immagine-video con controllo del movimento della telecamera esistente (CMC-I2V) senza addestramento. Per adattare il modello CMC-I2V originariamente progettato per il controllo del movimento globale per gestire il movimento locale dell'oggetto, introduciamo un modulo per isolare l'oggetto di destinazione dallo sfondo, consentendo un controllo locale indipendente. Inoltre, progettiamo un modo efficace per ottenere un controllo degli oggetti più accurato condividendo latenti distorti a bassa frequenza all'interno della regione dell'oggetto tra i frame. Estesi esperimenti dimostrano che ObjCtrl-2.5D migliora significativamente l'accuratezza del controllo degli oggetti rispetto ai metodi senza addestramento e offre capacità di controllo più diverse rispetto agli approcci basati sull'addestramento utilizzando traiettorie 2D, consentendo effetti complessi come la rotazione degli oggetti. Il codice e i risultati sono disponibili su https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.
English
This study aims to achieve more precise and versatile object control in
image-to-video (I2V) generation. Current methods typically represent the
spatial movement of target objects with 2D trajectories, which often fail to
capture user intention and frequently produce unnatural results. To enhance
control, we present ObjCtrl-2.5D, a training-free object control approach that
uses a 3D trajectory, extended from a 2D trajectory with depth information, as
a control signal. By modeling object movement as camera movement, ObjCtrl-2.5D
represents the 3D trajectory as a sequence of camera poses, enabling object
motion control using an existing camera motion control I2V generation model
(CMC-I2V) without training. To adapt the CMC-I2V model originally designed for
global motion control to handle local object motion, we introduce a module to
isolate the target object from the background, enabling independent local
control. In addition, we devise an effective way to achieve more accurate
object control by sharing low-frequency warped latent within the object's
region across frames. Extensive experiments demonstrate that ObjCtrl-2.5D
significantly improves object control accuracy compared to training-free
methods and offers more diverse control capabilities than training-based
approaches using 2D trajectories, enabling complex effects like object
rotation. Code and results are available at
https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.Summary
AI-Generated Summary