VidCRAFT3: Kamera-, Objekt- und Beleuchtungssteuerung für die Generierung von Bild-zu-Video.

Zusammenfassung

Aktuelle Methoden zur Generierung von Bildern zu Videos haben Erfolg gezeigt, indem sie die Steuerung über ein oder zwei visuelle Elemente ermöglichen, wie beispielsweise die Kamerabewegung oder die Objektbewegung. Diese Methoden können jedoch aufgrund von Datenbeschränkungen und Netzwerkeffizienz keine Steuerung über mehrere visuelle Elemente bieten. In diesem Paper stellen wir VidCRAFT3 vor, ein neuartiges Framework für präzise Bild-zu-Video-Generierung, das gleichzeitig die Steuerung über Kamerabewegung, Objektbewegung und Beleuchtungsrichtung ermöglicht. Um die Steuerung über jedes visuelle Element besser zu entkoppeln, schlagen wir den Spatial Triple-Attention Transformer vor, der die Beleuchtungsrichtung, Text und Bild auf symmetrische Weise integriert. Da die meisten realen Videodatensätze keine Beleuchtungsannotationen aufweisen, haben wir einen qualitativ hochwertigen synthetischen Videodatensatz erstellt, den VideoLightingDirection (VLD) Datensatz. Dieser Datensatz enthält Beleuchtungsrichtungsannotationen und Objekte mit vielfältigem Erscheinungsbild, was es VidCRAFT3 ermöglicht, starke Lichttransmissions- und Reflexionseffekte effektiv zu verarbeiten. Darüber hinaus schlagen wir eine dreistufige Schulungsstrategie vor, die es ermöglicht, auf das Training von Daten zu verzichten, die mit mehreren visuellen Elementen (Kamerabewegung, Objektbewegung und Beleuchtungsrichtung) gleichzeitig annotiert sind. Umfangreiche Experimente an Benchmark-Datensätzen zeigen die Wirksamkeit von VidCRAFT3 bei der Erzeugung hochwertiger Videoinhalte, wobei bestehende State-of-the-Art-Methoden in Bezug auf Steuerungsfeinheit und visuelle Kohärenz übertroffen werden. Der gesamte Code und die Daten werden öffentlich verfügbar sein. Projektseite: https://sixiaozheng.github.io/VidCRAFT3/.

English

Recent image-to-video generation methods have demonstrated success in enabling control over one or two visual elements, such as camera trajectory or object motion. However, these methods are unable to offer control over multiple visual elements due to limitations in data and network efficacy. In this paper, we introduce VidCRAFT3, a novel framework for precise image-to-video generation that enables control over camera motion, object motion, and lighting direction simultaneously. To better decouple control over each visual element, we propose the Spatial Triple-Attention Transformer, which integrates lighting direction, text, and image in a symmetric way. Since most real-world video datasets lack lighting annotations, we construct a high-quality synthetic video dataset, the VideoLightingDirection (VLD) dataset. This dataset includes lighting direction annotations and objects of diverse appearance, enabling VidCRAFT3 to effectively handle strong light transmission and reflection effects. Additionally, we propose a three-stage training strategy that eliminates the need for training data annotated with multiple visual elements (camera motion, object motion, and lighting direction) simultaneously. Extensive experiments on benchmark datasets demonstrate the efficacy of VidCRAFT3 in producing high-quality video content, surpassing existing state-of-the-art methods in terms of control granularity and visual coherence. All code and data will be publicly available. Project page: https://sixiaozheng.github.io/VidCRAFT3/.

VidCRAFT3: Kamera-, Objekt- und Beleuchtungssteuerung für die Generierung von Bild-zu-Video.

VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

Zusammenfassung

Summary

Support