SynCamMaster: 다양한 시점에서의 다중 카메라 비디오 생성 동기화
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
December 10, 2024
저자: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI
초록
최근 비디오 확산 모델의 발전은 현실 세계 역학을 시뮬레이션하고 3D 일관성을 유지하는 뛰어난 능력을 보여주었습니다. 이 발전은 우리에게 이러한 모델의 잠재력을 조사하여 다양한 관점에서 동적 일관성을 보장하는 가능성을 영감을 주었습니다. 이는 가상 촬영과 같은 응용 프로그램에 매우 바람직한 기능입니다. 4D 재구성을 위해 단일 객체의 다중 뷰 생성에 중점을 둔 기존 방법과는 달리, 우리의 관심은 임의의 관점에서 오픈 월드 비디오를 생성하고 6 DoF 카메라 포즈를 통합하는 데 있습니다. 이를 달성하기 위해, 우리는 사전 훈련된 텍스트-비디오 모델을 향상시키는 플러그 앤 플레이 모듈을 제안하여 다양한 관점에서 일관된 콘텐츠를 보장하는 다중 카메라 비디오 생성을 위한 것입니다. 구체적으로, 우리는 외관 및 기하학적 일관성을 유지하기 위해 다중 뷰 동기화 모듈을 소개합니다. 고품질 훈련 데이터의 부족으로 인해, 우리는 Unreal Engine으로 렌더링된 다중 카메라 비디오를 보충하기 위해 다중 카메라 이미지와 단안 비디오를 활용하는 하이브리드 훈련 체계를 설계했습니다. 더 나아가, 우리의 방법은 새로운 관점에서 비디오를 다시 렌더링하는 등 흥미로운 확장 기능을 제공합니다. 또한, SynCamVideo-Dataset이라는 다중 뷰 동기화 비디오 데이터 세트를 공개합니다. 프로젝트 페이지: https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional
abilities in simulating real-world dynamics and maintaining 3D consistency.
This progress inspires us to investigate the potential of these models to
ensure dynamic consistency across various viewpoints, a highly desirable
feature for applications such as virtual filming. Unlike existing methods
focused on multi-view generation of single objects for 4D reconstruction, our
interest lies in generating open-world videos from arbitrary viewpoints,
incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play
module that enhances a pre-trained text-to-video model for multi-camera video
generation, ensuring consistent content across different viewpoints.
Specifically, we introduce a multi-view synchronization module to maintain
appearance and geometry consistency across these viewpoints. Given the scarcity
of high-quality training data, we design a hybrid training scheme that
leverages multi-camera images and monocular videos to supplement Unreal
Engine-rendered multi-camera videos. Furthermore, our method enables intriguing
extensions, such as re-rendering a video from novel viewpoints. We also release
a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project
page: https://jianhongbai.github.io/SynCamMaster/.Summary
AI-Generated Summary