3DTrajMaster: Padronanza della traiettoria 3D per il movimento multi-entità nei video.
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation
December 10, 2024
Autori: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI
Abstract
Questo articolo mira a manipolare i movimenti 3D multi-entità nella generazione di video. I metodi precedenti sulla generazione di video controllabili sfruttano principalmente segnali di controllo 2D per manipolare i movimenti degli oggetti e hanno ottenuto risultati di sintesi notevoli. Tuttavia, i segnali di controllo 2D sono intrinsecamente limitati nell'esprimere la natura 3D dei movimenti degli oggetti. Per superare questo problema, introduciamo 3DTrajMaster, un controller robusto che regola la dinamica multi-entità nello spazio 3D, dati sequenze di posa a 6 gradi di libertà (posizione e rotazione) desiderate dall'utente delle entità. Al centro del nostro approccio c'è un iniettore di oggetti basato su movimenti 3D che fonde molteplici entità di input con le rispettive traiettorie 3D attraverso un meccanismo di autoattenzione a porte. Inoltre, sfruttiamo un'architettura di iniettori per preservare la precedente diffusione video, che è cruciale per la capacità di generalizzazione. Per mitigare il degrado della qualità video, introduciamo un adattatore di dominio durante l'addestramento e utilizziamo una strategia di campionamento annerita durante l'inferenza. Per affrontare la mancanza di dati di addestramento appropriati, costruiamo un Dataset di Movimento a 360 gradi, che correla inizialmente asset umani e animali 3D raccolti con traiettorie generate da GPT e quindi cattura il loro movimento con 12 telecamere circolari su piattaforme 3D UE diverse. Estesi esperimenti mostrano che 3DTrajMaster stabilisce un nuovo stato dell'arte sia in termini di accuratezza che di generalizzazione per il controllo dei movimenti 3D multi-entità. Pagina del progetto: http://fuxiao0719.github.io/projects/3dtrajmaster
English
This paper aims to manipulate multi-entity 3D motions in video generation.
Previous methods on controllable video generation primarily leverage 2D control
signals to manipulate object motions and have achieved remarkable synthesis
results. However, 2D control signals are inherently limited in expressing the
3D nature of object motions. To overcome this problem, we introduce
3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D
space, given user-desired 6DoF pose (location and rotation) sequences of
entities. At the core of our approach is a plug-and-play 3D-motion grounded
object injector that fuses multiple input entities with their respective 3D
trajectories through a gated self-attention mechanism. In addition, we exploit
an injector architecture to preserve the video diffusion prior, which is
crucial for generalization ability. To mitigate video quality degradation, we
introduce a domain adaptor during training and employ an annealed sampling
strategy during inference. To address the lack of suitable training data, we
construct a 360-Motion Dataset, which first correlates collected 3D human and
animal assets with GPT-generated trajectory and then captures their motion with
12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments
show that 3DTrajMaster sets a new state-of-the-art in both accuracy and
generalization for controlling multi-entity 3D motions. Project page:
http://fuxiao0719.github.io/projects/3dtrajmasterSummary
AI-Generated Summary