VidCRAFT3: 이미지에서 비디오로의 카메라, 객체 및 조명 제어
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
February 11, 2025
저자: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI
초록
최근 이미지에서 비디오로 생성하는 방법들은 카메라 궤적이나 물체 움직임과 같은 하나 또는 두 가지 시각적 요소에 대한 제어를 성공적으로 보여주었습니다. 그러나 이러한 방법들은 데이터와 네트워크 효율성의 제한으로 인해 여러 시각적 요소에 대한 제어를 제공할 수 없습니다. 본 논문에서는 카메라 움직임, 물체 움직임, 그리고 조명 방향에 동시에 제어할 수 있는 정확한 이미지에서 비디오로 생성하는 새로운 프레임워크인 VidCRAFT3를 제안합니다. 각 시각적 요소에 대한 제어를 더 잘 분리하기 위해 조명 방향, 텍스트, 이미지를 대칭적으로 통합하는 Spatial Triple-Attention Transformer를 제안합니다. 대부분의 현실 세계 비디오 데이터셋은 조명 주석이 부족하기 때문에 고품질의 합성 비디오 데이터셋인 VideoLightingDirection (VLD) 데이터셋을 구축했습니다. 이 데이터셋은 조명 방향 주석과 다양한 외관의 물체를 포함하여 VidCRAFT3가 강한 빛의 전달과 반사 효과를 효과적으로 처리할 수 있게 합니다. 또한, 카메라 움직임, 물체 움직임, 그리고 조명 방향과 같은 여러 시각적 요소에 대한 주석이 동시에 있는 훈련 데이터가 필요 없도록 하는 세 단계의 훈련 전략을 제안합니다. 벤치마크 데이터셋에서의 광범위한 실험 결과는 VidCRAFT3의 효과적인 비디오 콘텐츠 생성 능력을 입증하며, 제어 정밀도와 시각적 일관성 측면에서 기존 최첨단 방법을 능가합니다. 모든 코드와 데이터는 공개적으로 이용 가능합니다. 프로젝트 페이지: https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in
enabling control over one or two visual elements, such as camera trajectory or
object motion. However, these methods are unable to offer control over multiple
visual elements due to limitations in data and network efficacy. In this paper,
we introduce VidCRAFT3, a novel framework for precise image-to-video generation
that enables control over camera motion, object motion, and lighting direction
simultaneously. To better decouple control over each visual element, we propose
the Spatial Triple-Attention Transformer, which integrates lighting direction,
text, and image in a symmetric way. Since most real-world video datasets lack
lighting annotations, we construct a high-quality synthetic video dataset, the
VideoLightingDirection (VLD) dataset. This dataset includes lighting direction
annotations and objects of diverse appearance, enabling VidCRAFT3 to
effectively handle strong light transmission and reflection effects.
Additionally, we propose a three-stage training strategy that eliminates the
need for training data annotated with multiple visual elements (camera motion,
object motion, and lighting direction) simultaneously. Extensive experiments on
benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing
high-quality video content, surpassing existing state-of-the-art methods in
terms of control granularity and visual coherence. All code and data will be
publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.Summary
AI-Generated Summary