ChatPaper.aiChatPaper

MotionCanvas : Conception de plans cinématographiques avec génération d'images vers vidéos contrôlable

MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

February 6, 2025
Auteurs: Jinbo Xing, Long Mai, Cusuh Ham, Jiahui Huang, Aniruddha Mahapatra, Chi-Wing Fu, Tien-Tsin Wong, Feng Liu
cs.AI

Résumé

Cet article présente une méthode qui permet aux utilisateurs de concevoir des plans vidéo cinématographiques dans le contexte de la génération d'images en vidéo. La conception de plans, un aspect critique de la réalisation cinématographique, implique de planifier méticuleusement à la fois les mouvements de caméra et les mouvements d'objets dans une scène. Cependant, permettre une conception de plans intuitive dans les systèmes modernes de génération d'images en vidéo présente deux principaux défis : premièrement, capturer efficacement les intentions de l'utilisateur sur la conception des mouvements, où à la fois les mouvements de caméra et les mouvements d'objets dans l'espace scénique doivent être spécifiés conjointement ; et deuxièmement, représenter des informations de mouvement qui peuvent être efficacement utilisées par un modèle de diffusion vidéo pour synthétiser les animations d'images. Pour relever ces défis, nous présentons MotionCanvas, une méthode qui intègre des contrôles pilotés par l'utilisateur dans les modèles de génération d'images en vidéo, permettant aux utilisateurs de contrôler à la fois les mouvements d'objets et de caméra de manière consciente de la scène. En connectant les connaissances de la graphique informatique classique et des techniques contemporaines de génération vidéo, nous démontrons la capacité à réaliser un contrôle de mouvement conscient en 3D dans la synthèse d'images en vidéo sans nécessiter de données d'entraînement coûteuses en 3D. MotionCanvas permet aux utilisateurs de représenter intuitivement les intentions de mouvement dans l'espace scénique, et de les traduire en signaux de conditionnement de mouvement spatiotemporel pour les modèles de diffusion vidéo. Nous démontrons l'efficacité de notre méthode sur une large gamme de contenus d'images du monde réel et de scénarios de conception de plans, mettant en avant son potentiel pour améliorer les flux de travail créatifs dans la création de contenu numérique et s'adapter à diverses applications de montage d'images et de vidéos.
English
This paper presents a method that allows users to design cinematic video shots in the context of image-to-video generation. Shot design, a critical aspect of filmmaking, involves meticulously planning both camera movements and object motions in a scene. However, enabling intuitive shot design in modern image-to-video generation systems presents two main challenges: first, effectively capturing user intentions on the motion design, where both camera movements and scene-space object motions must be specified jointly; and second, representing motion information that can be effectively utilized by a video diffusion model to synthesize the image animations. To address these challenges, we introduce MotionCanvas, a method that integrates user-driven controls into image-to-video (I2V) generation models, allowing users to control both object and camera motions in a scene-aware manner. By connecting insights from classical computer graphics and contemporary video generation techniques, we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis without requiring costly 3D-related training data. MotionCanvas enables users to intuitively depict scene-space motion intentions, and translates them into spatiotemporal motion-conditioning signals for video diffusion models. We demonstrate the effectiveness of our method on a wide range of real-world image content and shot-design scenarios, highlighting its potential to enhance the creative workflows in digital content creation and adapt to various image and video editing applications.

Summary

AI-Generated Summary

PDF183February 7, 2025