StableV2V : Stabilisation de la cohérence des formes dans l'édition vidéo à vidéo
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
November 17, 2024
Auteurs: Chang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
cs.AI
Résumé
Les récents progrès de l'IA générative ont considérablement favorisé la création et l'édition de contenu, où des études prédominantes étendent davantage ce progrès passionnant à l'édition vidéo. Pour ce faire, ces études transfèrent principalement les motifs de mouvement inhérents des vidéos sources vers celles éditées, où des résultats avec une cohérence inférieure par rapport aux indications de l'utilisateur sont souvent observés, en raison du manque d'alignements particuliers entre les mouvements transmis et les contenus édités. Pour remédier à cette limitation, nous présentons dans cet article une méthode d'édition vidéo conforme à la forme, nommée StableV2V. Notre méthode décompose l'ensemble du pipeline d'édition en plusieurs procédures séquentielles, où elle édite le premier cadre vidéo, établit ensuite un alignement entre les mouvements transmis et les indications de l'utilisateur, et propage enfin les contenus édités à tous les autres cadres en fonction de cet alignement. De plus, nous avons élaboré un banc d'essai, nommé DAVIS-Edit, pour une évaluation complète de l'édition vidéo, en tenant compte de divers types d'indications et de difficultés. Les résultats expérimentaux et les analyses illustrent les performances supérieures, la cohérence visuelle et l'efficacité de l'inférence de notre méthode par rapport aux études étatiques de l'art existantes.
English
Recent advancements of generative AI have significantly promoted content
creation and editing, where prevailing studies further extend this exciting
progress to video editing. In doing so, these studies mainly transfer the
inherent motion patterns from the source videos to the edited ones, where
results with inferior consistency to user prompts are often observed, due to
the lack of particular alignments between the delivered motions and edited
contents. To address this limitation, we present a shape-consistent video
editing method, namely StableV2V, in this paper. Our method decomposes the
entire editing pipeline into several sequential procedures, where it edits the
first video frame, then establishes an alignment between the delivered motions
and user prompts, and eventually propagates the edited contents to all other
frames based on such alignment. Furthermore, we curate a testing benchmark,
namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering
various types of prompts and difficulties. Experimental results and analyses
illustrate the outperforming performance, visual consistency, and inference
efficiency of our method compared to existing state-of-the-art studies.Summary
AI-Generated Summary