ChatPaper.aiChatPaper

VidCRAFT3: 이미지에서 비디오로의 카메라, 객체 및 조명 제어

VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

February 11, 2025
저자: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI

초록

최근 이미지에서 비디오로 생성하는 방법들은 카메라 궤적이나 물체 움직임과 같은 하나 또는 두 가지 시각적 요소에 대한 제어를 성공적으로 보여주었습니다. 그러나 이러한 방법들은 데이터와 네트워크 효율성의 제한으로 인해 여러 시각적 요소에 대한 제어를 제공할 수 없습니다. 본 논문에서는 카메라 움직임, 물체 움직임, 그리고 조명 방향에 동시에 제어할 수 있는 정확한 이미지에서 비디오로 생성하는 새로운 프레임워크인 VidCRAFT3를 제안합니다. 각 시각적 요소에 대한 제어를 더 잘 분리하기 위해 조명 방향, 텍스트, 이미지를 대칭적으로 통합하는 Spatial Triple-Attention Transformer를 제안합니다. 대부분의 현실 세계 비디오 데이터셋은 조명 주석이 부족하기 때문에 고품질의 합성 비디오 데이터셋인 VideoLightingDirection (VLD) 데이터셋을 구축했습니다. 이 데이터셋은 조명 방향 주석과 다양한 외관의 물체를 포함하여 VidCRAFT3가 강한 빛의 전달과 반사 효과를 효과적으로 처리할 수 있게 합니다. 또한, 카메라 움직임, 물체 움직임, 그리고 조명 방향과 같은 여러 시각적 요소에 대한 주석이 동시에 있는 훈련 데이터가 필요 없도록 하는 세 단계의 훈련 전략을 제안합니다. 벤치마크 데이터셋에서의 광범위한 실험 결과는 VidCRAFT3의 효과적인 비디오 콘텐츠 생성 능력을 입증하며, 제어 정밀도와 시각적 일관성 측면에서 기존 최첨단 방법을 능가합니다. 모든 코드와 데이터는 공개적으로 이용 가능합니다. 프로젝트 페이지: https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in enabling control over one or two visual elements, such as camera trajectory or object motion. However, these methods are unable to offer control over multiple visual elements due to limitations in data and network efficacy. In this paper, we introduce VidCRAFT3, a novel framework for precise image-to-video generation that enables control over camera motion, object motion, and lighting direction simultaneously. To better decouple control over each visual element, we propose the Spatial Triple-Attention Transformer, which integrates lighting direction, text, and image in a symmetric way. Since most real-world video datasets lack lighting annotations, we construct a high-quality synthetic video dataset, the VideoLightingDirection (VLD) dataset. This dataset includes lighting direction annotations and objects of diverse appearance, enabling VidCRAFT3 to effectively handle strong light transmission and reflection effects. Additionally, we propose a three-stage training strategy that eliminates the need for training data annotated with multiple visual elements (camera motion, object motion, and lighting direction) simultaneously. Extensive experiments on benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing high-quality video content, surpassing existing state-of-the-art methods in terms of control granularity and visual coherence. All code and data will be publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.

Summary

AI-Generated Summary

PDF133February 12, 2025