VidCRAFT3: Kamera-, Objekt- und Beleuchtungssteuerung für die Generierung von Bild-zu-Video.
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
February 11, 2025
Autoren: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
cs.AI
Zusammenfassung
Aktuelle Methoden zur Generierung von Bildern zu Videos haben Erfolg gezeigt, indem sie die Steuerung über ein oder zwei visuelle Elemente ermöglichen, wie beispielsweise die Kamerabewegung oder die Objektbewegung. Diese Methoden können jedoch aufgrund von Datenbeschränkungen und Netzwerkeffizienz keine Steuerung über mehrere visuelle Elemente bieten. In diesem Paper stellen wir VidCRAFT3 vor, ein neuartiges Framework für präzise Bild-zu-Video-Generierung, das gleichzeitig die Steuerung über Kamerabewegung, Objektbewegung und Beleuchtungsrichtung ermöglicht. Um die Steuerung über jedes visuelle Element besser zu entkoppeln, schlagen wir den Spatial Triple-Attention Transformer vor, der die Beleuchtungsrichtung, Text und Bild auf symmetrische Weise integriert. Da die meisten realen Videodatensätze keine Beleuchtungsannotationen aufweisen, haben wir einen qualitativ hochwertigen synthetischen Videodatensatz erstellt, den VideoLightingDirection (VLD) Datensatz. Dieser Datensatz enthält Beleuchtungsrichtungsannotationen und Objekte mit vielfältigem Erscheinungsbild, was es VidCRAFT3 ermöglicht, starke Lichttransmissions- und Reflexionseffekte effektiv zu verarbeiten. Darüber hinaus schlagen wir eine dreistufige Schulungsstrategie vor, die es ermöglicht, auf das Training von Daten zu verzichten, die mit mehreren visuellen Elementen (Kamerabewegung, Objektbewegung und Beleuchtungsrichtung) gleichzeitig annotiert sind. Umfangreiche Experimente an Benchmark-Datensätzen zeigen die Wirksamkeit von VidCRAFT3 bei der Erzeugung hochwertiger Videoinhalte, wobei bestehende State-of-the-Art-Methoden in Bezug auf Steuerungsfeinheit und visuelle Kohärenz übertroffen werden. Der gesamte Code und die Daten werden öffentlich verfügbar sein. Projektseite: https://sixiaozheng.github.io/VidCRAFT3/.
English
Recent image-to-video generation methods have demonstrated success in
enabling control over one or two visual elements, such as camera trajectory or
object motion. However, these methods are unable to offer control over multiple
visual elements due to limitations in data and network efficacy. In this paper,
we introduce VidCRAFT3, a novel framework for precise image-to-video generation
that enables control over camera motion, object motion, and lighting direction
simultaneously. To better decouple control over each visual element, we propose
the Spatial Triple-Attention Transformer, which integrates lighting direction,
text, and image in a symmetric way. Since most real-world video datasets lack
lighting annotations, we construct a high-quality synthetic video dataset, the
VideoLightingDirection (VLD) dataset. This dataset includes lighting direction
annotations and objects of diverse appearance, enabling VidCRAFT3 to
effectively handle strong light transmission and reflection effects.
Additionally, we propose a three-stage training strategy that eliminates the
need for training data annotated with multiple visual elements (camera motion,
object motion, and lighting direction) simultaneously. Extensive experiments on
benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing
high-quality video content, surpassing existing state-of-the-art methods in
terms of control granularity and visual coherence. All code and data will be
publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.Summary
AI-Generated Summary