CineMaster: 영화적 텍스트 대 동영상 생성을 위한 3D 인식 및 제어 가능한 프레임워크
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
February 12, 2025
저자: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI
초록
본 연구에서는 3D를 고려한 텍스트-비디오 생성을 위한 혁신적인 프레임워크 인 CineMaster를 제안합니다. 우리의 목표는 사용자에게 전문 영화 감독과 유사한 조작 가능성을 부여하는 것입니다: 장면 내 객체의 정확한 배치, 3D 공간에서의 객체 및 카메라의 유연한 조작, 그리고 렌더링된 프레임에 대한 직관적인 레이아웃 제어. 이를 달성하기 위해 CineMaster는 두 단계로 작동합니다. 첫 번째 단계에서는 사용자가 객체 바운딩 박스를 배치하고 3D 공간 내에서 카메라 움직임을 정의하여 3D를 고려한 조건부 신호를 직관적으로 구성할 수 있는 대화식 워크플로우를 설계합니다. 두 번째 단계에서는 렌더링된 깊이 맵, 카메라 궤적 및 객체 클래스 레이블로 구성된 이러한 제어 신호가 텍스트-비디오 확산 모델의 지침 역할을 하여 사용자가 의도한 비디오 콘텐츠를 생성하도록 보장합니다. 또한, 3D 객체 움직임 및 카메라 위치 주석이 포함된 야외 데이터셋의 희소성을 극복하기 위해 대규모 비디오 데이터에서 3D 바운딩 박스 및 카메라 궤적을 추출하는 자동화된 데이터 주석 파이프라인을 신중히 구축합니다. 방대한 질적 및 양적 실험을 통해 CineMaster가 기존 방법을 크게 능가하며 현저한 3D를 고려한 텍스트-비디오 생성을 구현한다는 것을 입증합니다. 프로젝트 페이지: https://cinemaster-dev.github.io/.
English
In this work, we present CineMaster, a novel framework for 3D-aware and
controllable text-to-video generation. Our goal is to empower users with
comparable controllability as professional film directors: precise placement of
objects within the scene, flexible manipulation of both objects and camera in
3D space, and intuitive layout control over the rendered frames. To achieve
this, CineMaster operates in two stages. In the first stage, we design an
interactive workflow that allows users to intuitively construct 3D-aware
conditional signals by positioning object bounding boxes and defining camera
movements within the 3D space. In the second stage, these control
signals--comprising rendered depth maps, camera trajectories and object class
labels--serve as the guidance for a text-to-video diffusion model, ensuring to
generate the user-intended video content. Furthermore, to overcome the scarcity
of in-the-wild datasets with 3D object motion and camera pose annotations, we
carefully establish an automated data annotation pipeline that extracts 3D
bounding boxes and camera trajectories from large-scale video data. Extensive
qualitative and quantitative experiments demonstrate that CineMaster
significantly outperforms existing methods and implements prominent 3D-aware
text-to-video generation. Project page: https://cinemaster-dev.github.io/.Summary
AI-Generated Summary