ChatPaper.aiChatPaper

GS-DiT: 효율적인 밀집 3D 포인트 추적을 통해 가짜 4D 가우시안 필드를 활용한 비디오 생성 발전

GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

January 5, 2025
저자: Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li
cs.AI

초록

비디오 생성에서 4D 비디오 제어는 중요합니다. 왜냐하면 다중 카메라 촬영 및 돌리 줌과 같은 정교한 렌즈 기술을 사용할 수 있게 하며, 현재의 방법에서는 지원되지 않습니다. 비디오 확산 트랜스포머(DiT)를 직접 4D 콘텐츠를 제어하도록 훈련하는 것은 비용이 많이 드는 다중 뷰 비디오가 필요합니다. 카메라 포즈 및 객체 이동 편집과 같은 다양한 4D 요소에 따라 비디오를 렌더링하는 Monocular Dynamic novel View Synthesis (MDVS)에서 영감을 받아, 우리는 가짜 4D 가우시안 필드를 비디오 생성에 가져왔습니다. 구체적으로, 우리는 밀도 있는 3D 포인트 추적으로 가짜 4D 가우시안 필드를 구성하고 모든 비디오 프레임에 대해 가우시안 필드를 렌더링하는 새로운 프레임워크를 제안합니다. 그런 다음 사전 훈련된 DiT를 세밀한 비디오의 안내에 따라 비디오를 생성하도록 세밀하게 조정합니다. 이를 GS-DiT라고 합니다. GS-DiT의 훈련을 강화하기 위해 우리는 가짜 4D 가우시안 필드 구성을 위한 효율적인 밀도 있는 3D 포인트 추적(D3D-PT) 방법도 제안합니다. 우리의 D3D-PT는 정확성에서 최첨단 희소 3D 포인트 추적 방법인 SpatialTracker를 능가하며 추론 속도를 2차례 가속화합니다. 추론 단계에서 GS-DiT는 현재의 비디오 생성 모델의 중요한 제한 사항을 해결하면서 동일한 동적 콘텐츠로 비디오를 생성할 수 있습니다. GS-DiT는 강력한 일반화 능력을 보여주며 가우시안 스플래팅의 4D 제어성을 카메라 포즈 이상의 비디오 생성으로 확장합니다. 가우시안 필드 및 카메라 내재 파라미터 조작을 통해 고급 시네마틱 효과를 지원하여 창의적인 비디오 제작을 위한 강력한 도구로 작용합니다. 데모는 https://wkbian.github.io/Projects/GS-DiT/에서 확인할 수 있습니다.
English
4D video control is essential in video generation as it enables the use of sophisticated lens techniques, such as multi-camera shooting and dolly zoom, which are currently unsupported by existing methods. Training a video Diffusion Transformer (DiT) directly to control 4D content requires expensive multi-view videos. Inspired by Monocular Dynamic novel View Synthesis (MDVS) that optimizes a 4D representation and renders videos according to different 4D elements, such as camera pose and object motion editing, we bring pseudo 4D Gaussian fields to video generation. Specifically, we propose a novel framework that constructs a pseudo 4D Gaussian field with dense 3D point tracking and renders the Gaussian field for all video frames. Then we finetune a pretrained DiT to generate videos following the guidance of the rendered video, dubbed as GS-DiT. To boost the training of the GS-DiT, we also propose an efficient Dense 3D Point Tracking (D3D-PT) method for the pseudo 4D Gaussian field construction. Our D3D-PT outperforms SpatialTracker, the state-of-the-art sparse 3D point tracking method, in accuracy and accelerates the inference speed by two orders of magnitude. During the inference stage, GS-DiT can generate videos with the same dynamic content while adhering to different camera parameters, addressing a significant limitation of current video generation models. GS-DiT demonstrates strong generalization capabilities and extends the 4D controllability of Gaussian splatting to video generation beyond just camera poses. It supports advanced cinematic effects through the manipulation of the Gaussian field and camera intrinsics, making it a powerful tool for creative video production. Demos are available at https://wkbian.github.io/Projects/GS-DiT/.

Summary

AI-Generated Summary

PDF173January 7, 2025