Cavia: 시점 통합 주의를 갖춘 카메라 제어 가능한 다중 뷰 비디오 확산
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
October 14, 2024
저자: Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
cs.AI
초록
최근 몇 년간 이미지에서 비디오로의 생성에서 현저한 발전이 있었습니다. 그러나 생성된 프레임의 3D 일관성과 카메라 제어 가능성은 여전히 해결되지 않은 문제입니다. 최근 연구들은 생성 과정에 카메라 제어를 통합하려고 시도해 왔지만, 그 결과는 종종 간단한 궤적에 제한되거나 동일한 장면에 대해 여러 가지 다른 카메라 경로에서 일관된 비디오를 생성하는 능력이 부족합니다. 이러한 한계를 극복하기 위해, 우리는 Cavia를 소개합니다. 이는 입력 이미지를 여러 공간적 및 시간적으로 일관된 비디오로 변환할 수 있는 카메라 제어 가능한 다중 뷰 비디오 생성을 위한 혁신적인 프레임워크입니다. 우리의 프레임워크는 공간 및 시간적 주의 모듈을 뷰 통합 주의 모듈로 확장하여 시각 및 시간적 일관성을 향상시킵니다. 이 유연한 설계는 장면 수준 정적 비디오, 객체 수준 합성 다중 뷰 동적 비디오, 그리고 실제 단안 동적 비디오를 포함한 다양한 정제된 데이터 원본과의 공동 훈련을 가능하게 합니다. 우리의 최고의 지식으로, Cavia는 사용자가 객체 움직임을 얻으면서 카메라 움직임을 정확하게 지정할 수 있는 첫 번째 제품입니다. 광범위한 실험 결과는 Cavia가 기하학적 일관성과 지각적 품질 측면에서 최첨단 방법을 능가한다는 것을 입증합니다. 프로젝트 페이지: https://ir1d.github.io/Cavia/
English
In recent years there have been remarkable breakthroughs in image-to-video
generation. However, the 3D consistency and camera controllability of generated
frames have remained unsolved. Recent studies have attempted to incorporate
camera control into the generation process, but their results are often limited
to simple trajectories or lack the ability to generate consistent videos from
multiple distinct camera paths for the same scene. To address these
limitations, we introduce Cavia, a novel framework for camera-controllable,
multi-view video generation, capable of converting an input image into multiple
spatiotemporally consistent videos. Our framework extends the spatial and
temporal attention modules into view-integrated attention modules, improving
both viewpoint and temporal consistency. This flexible design allows for joint
training with diverse curated data sources, including scene-level static
videos, object-level synthetic multi-view dynamic videos, and real-world
monocular dynamic videos. To our best knowledge, Cavia is the first of its kind
that allows the user to precisely specify camera motion while obtaining object
motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art
methods in terms of geometric consistency and perceptual quality. Project Page:
https://ir1d.github.io/Cavia/Summary
AI-Generated Summary