GS-DiT: Avanzamento della Generazione Video con Campi Gaussiani Pseudo 4D tramite Tracciamento Punti 3D Denso Efficiente

GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

January 5, 2025
Autori: Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li
cs.AI

Abstract

Il controllo video 4D è essenziale nella generazione di video poiché consente l'uso di tecniche sofisticate di obiettivo, come riprese multi-telecamera e zoom dolly, attualmente non supportate dai metodi esistenti. Addestrare un Diffusion Transformer video (DiT) direttamente per controllare contenuti 4D richiede costosi video multi-vista. Ispirandoci alla Sintesi di Visualizzazione Dinamica Monoculare (MDVS) che ottimizza una rappresentazione 4D e rende video in base a diversi elementi 4D, come posizione della telecamera e modifica del movimento dell'oggetto, introduciamo campi gaussiani pseudo 4D per la generazione video. In particolare, proponiamo un nuovo framework che costruisce un campo gaussiano pseudo 4D con tracciamento denso dei punti 3D e rende il campo gaussiano per tutti i fotogrammi video. Successivamente, perfezioniamo un DiT preaddestrato per generare video seguendo la guida del video reso, chiamato GS-DiT. Per potenziare l'addestramento del GS-DiT, proponiamo anche un efficiente metodo di Tracciamento Punti 3D Denso (D3D-PT) per la costruzione del campo gaussiano pseudo 4D. Il nostro D3D-PT supera SpatialTracker, il metodo di tracciamento di punti 3D sparso all'avanguardia, in precisione e accelera la velocità di inferenza di due ordini di grandezza. Durante la fase di inferenza, GS-DiT può generare video con lo stesso contenuto dinamico rispettando diversi parametri della telecamera, affrontando una significativa limitazione dei modelli attuali di generazione video. GS-DiT dimostra forti capacità di generalizzazione ed estende la controllabilità 4D dello splatting gaussiano alla generazione video oltre alle sole posizioni delle telecamere. Supporta effetti cinematografici avanzati attraverso la manipolazione del campo gaussiano e delle intrinseche della telecamera, rendendolo uno strumento potente per la produzione video creativa. Le demo sono disponibili su https://wkbian.github.io/Projects/GS-DiT/.
English
4D video control is essential in video generation as it enables the use of sophisticated lens techniques, such as multi-camera shooting and dolly zoom, which are currently unsupported by existing methods. Training a video Diffusion Transformer (DiT) directly to control 4D content requires expensive multi-view videos. Inspired by Monocular Dynamic novel View Synthesis (MDVS) that optimizes a 4D representation and renders videos according to different 4D elements, such as camera pose and object motion editing, we bring pseudo 4D Gaussian fields to video generation. Specifically, we propose a novel framework that constructs a pseudo 4D Gaussian field with dense 3D point tracking and renders the Gaussian field for all video frames. Then we finetune a pretrained DiT to generate videos following the guidance of the rendered video, dubbed as GS-DiT. To boost the training of the GS-DiT, we also propose an efficient Dense 3D Point Tracking (D3D-PT) method for the pseudo 4D Gaussian field construction. Our D3D-PT outperforms SpatialTracker, the state-of-the-art sparse 3D point tracking method, in accuracy and accelerates the inference speed by two orders of magnitude. During the inference stage, GS-DiT can generate videos with the same dynamic content while adhering to different camera parameters, addressing a significant limitation of current video generation models. GS-DiT demonstrates strong generalization capabilities and extends the 4D controllability of Gaussian splatting to video generation beyond just camera poses. It supports advanced cinematic effects through the manipulation of the Gaussian field and camera intrinsics, making it a powerful tool for creative video production. Demos are available at https://wkbian.github.io/Projects/GS-DiT/.

Summary

AI-Generated Summary

PDF172January 7, 2025