MotionCanvas : Conception de plans cinématographiques avec génération d'images vers vidéos contrôlable
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation
February 6, 2025
Auteurs: Jinbo Xing, Long Mai, Cusuh Ham, Jiahui Huang, Aniruddha Mahapatra, Chi-Wing Fu, Tien-Tsin Wong, Feng Liu
cs.AI
Résumé
Cet article présente une méthode qui permet aux utilisateurs de concevoir des plans vidéo cinématographiques dans le contexte de la génération d'images en vidéo. La conception de plans, un aspect critique de la réalisation cinématographique, implique de planifier méticuleusement à la fois les mouvements de caméra et les mouvements d'objets dans une scène. Cependant, permettre une conception de plans intuitive dans les systèmes modernes de génération d'images en vidéo présente deux principaux défis : premièrement, capturer efficacement les intentions de l'utilisateur sur la conception des mouvements, où à la fois les mouvements de caméra et les mouvements d'objets dans l'espace scénique doivent être spécifiés conjointement ; et deuxièmement, représenter des informations de mouvement qui peuvent être efficacement utilisées par un modèle de diffusion vidéo pour synthétiser les animations d'images. Pour relever ces défis, nous présentons MotionCanvas, une méthode qui intègre des contrôles pilotés par l'utilisateur dans les modèles de génération d'images en vidéo, permettant aux utilisateurs de contrôler à la fois les mouvements d'objets et de caméra de manière consciente de la scène. En connectant les connaissances de la graphique informatique classique et des techniques contemporaines de génération vidéo, nous démontrons la capacité à réaliser un contrôle de mouvement conscient en 3D dans la synthèse d'images en vidéo sans nécessiter de données d'entraînement coûteuses en 3D. MotionCanvas permet aux utilisateurs de représenter intuitivement les intentions de mouvement dans l'espace scénique, et de les traduire en signaux de conditionnement de mouvement spatiotemporel pour les modèles de diffusion vidéo. Nous démontrons l'efficacité de notre méthode sur une large gamme de contenus d'images du monde réel et de scénarios de conception de plans, mettant en avant son potentiel pour améliorer les flux de travail créatifs dans la création de contenu numérique et s'adapter à diverses applications de montage d'images et de vidéos.
English
This paper presents a method that allows users to design cinematic video
shots in the context of image-to-video generation. Shot design, a critical
aspect of filmmaking, involves meticulously planning both camera movements and
object motions in a scene. However, enabling intuitive shot design in modern
image-to-video generation systems presents two main challenges: first,
effectively capturing user intentions on the motion design, where both camera
movements and scene-space object motions must be specified jointly; and second,
representing motion information that can be effectively utilized by a video
diffusion model to synthesize the image animations. To address these
challenges, we introduce MotionCanvas, a method that integrates user-driven
controls into image-to-video (I2V) generation models, allowing users to control
both object and camera motions in a scene-aware manner. By connecting insights
from classical computer graphics and contemporary video generation techniques,
we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis
without requiring costly 3D-related training data. MotionCanvas enables users
to intuitively depict scene-space motion intentions, and translates them into
spatiotemporal motion-conditioning signals for video diffusion models. We
demonstrate the effectiveness of our method on a wide range of real-world image
content and shot-design scenarios, highlighting its potential to enhance the
creative workflows in digital content creation and adapt to various image and
video editing applications.Summary
AI-Generated Summary