GenDoP: Generazione Auto-regressiva della Traiettoria della Fotocamera come Direttore della Fotografia
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography
April 9, 2025
Autori: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin
cs.AI
Abstract
La progettazione della traiettoria della fotocamera svolge un ruolo cruciale nella produzione video, rappresentando uno strumento fondamentale per trasmettere l'intento registico e potenziare la narrazione visiva. Nella cinematografia, i direttori della fotografia elaborano meticolosamente i movimenti della fotocamera per ottenere inquadrature espressive e intenzionali. Tuttavia, i metodi esistenti per la generazione delle traiettorie della fotocamera rimangono limitati: gli approcci tradizionali si basano sull'ottimizzazione geometrica o su sistemi procedurali creati manualmente, mentre i metodi recenti basati sull'apprendimento spesso ereditano pregiudizi strutturali o mancano di allineamento testuale, limitando la sintesi creativa. In questo lavoro, introduciamo un modello auto-regressivo ispirato all'esperienza dei direttori della fotografia per generare traiettorie della fotocamera artistiche ed espressive. Presentiamo innanzitutto DataDoP, un dataset multi-modale su larga scala contenente 29K riprese reali con traiettorie libere della fotocamera, mappe di profondità e didascalie dettagliate sui movimenti specifici, l'interazione con la scena e l'intento registico. Grazie a questo database completo e diversificato, addestriamo ulteriormente un Transformer auto-regressivo, esclusivamente decoder, per la generazione di movimenti della fotocamera di alta qualità e consapevoli del contesto, basati su indicazioni testuali e input RGBD, denominato GenDoP. Esperimenti estensivi dimostrano che, rispetto ai metodi esistenti, GenDoP offre una migliore controllabilità, regolazioni più fini delle traiettorie e una maggiore stabilità del movimento. Crediamo che il nostro approccio stabilisca un nuovo standard per la cinematografia basata sull'apprendimento, aprendo la strada a futuri progressi nel controllo della fotocamera e nella produzione cinematografica. Il sito web del nostro progetto: https://kszpxxzmc.github.io/GenDoP/.
English
Camera trajectory design plays a crucial role in video production, serving as
a fundamental tool for conveying directorial intent and enhancing visual
storytelling. In cinematography, Directors of Photography meticulously craft
camera movements to achieve expressive and intentional framing. However,
existing methods for camera trajectory generation remain limited: Traditional
approaches rely on geometric optimization or handcrafted procedural systems,
while recent learning-based methods often inherit structural biases or lack
textual alignment, constraining creative synthesis. In this work, we introduce
an auto-regressive model inspired by the expertise of Directors of Photography
to generate artistic and expressive camera trajectories. We first introduce
DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with
free-moving camera trajectories, depth maps, and detailed captions in specific
movements, interaction with the scene, and directorial intent. Thanks to the
comprehensive and diverse database, we further train an auto-regressive,
decoder-only Transformer for high-quality, context-aware camera movement
generation based on text guidance and RGBD inputs, named GenDoP. Extensive
experiments demonstrate that compared to existing methods, GenDoP offers better
controllability, finer-grained trajectory adjustments, and higher motion
stability. We believe our approach establishes a new standard for
learning-based cinematography, paving the way for future advancements in camera
control and filmmaking. Our project website:
https://kszpxxzmc.github.io/GenDoP/.Summary
AI-Generated Summary