StableV2V: Stabilisierung der Formkonsistenz bei Video-zu-Video-Bearbeitung
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
November 17, 2024
Autoren: Chang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
cs.AI
Zusammenfassung
Die jüngsten Fortschritte der generativen KI haben die Inhaltserstellung und -bearbeitung erheblich vorangetrieben, wobei vorherrschende Studien diesen spannenden Fortschritt weiter auf die Videobearbeitung ausweiten. Dabei übertragen diese Studien hauptsächlich die inhärenten Bewegungsmuster von den Ausgangsvideos auf die bearbeiteten, wobei Ergebnisse mit unzureichender Konsistenz zu Benutzeranweisungen häufig beobachtet werden, aufgrund des Mangels an spezifischen Ausrichtungen zwischen den übertragenen Bewegungen und bearbeiteten Inhalten. Um diese Einschränkung zu adressieren, präsentieren wir in diesem Papier eine formkonsistente Videobearbeitungsmethode, nämlich StableV2V. Unsere Methode zerlegt den gesamten Bearbeitungsprozess in mehrere aufeinanderfolgende Verfahren, wobei sie den ersten Videobild bearbeitet, dann eine Ausrichtung zwischen den übertragenen Bewegungen und Benutzeranweisungen herstellt und schließlich die bearbeiteten Inhalte basierend auf dieser Ausrichtung auf alle anderen Bilder überträgt. Darüber hinaus erstellen wir einen Testbenchmark, nämlich DAVIS-Edit, für eine umfassende Bewertung der Videobearbeitung unter Berücksichtigung verschiedener Arten von Anweisungen und Schwierigkeiten. Experimentelle Ergebnisse und Analysen veranschaulichen die überragende Leistung, visuelle Konsistenz und Inferenzeffizienz unserer Methode im Vergleich zu bestehenden state-of-the-art Studien.
English
Recent advancements of generative AI have significantly promoted content
creation and editing, where prevailing studies further extend this exciting
progress to video editing. In doing so, these studies mainly transfer the
inherent motion patterns from the source videos to the edited ones, where
results with inferior consistency to user prompts are often observed, due to
the lack of particular alignments between the delivered motions and edited
contents. To address this limitation, we present a shape-consistent video
editing method, namely StableV2V, in this paper. Our method decomposes the
entire editing pipeline into several sequential procedures, where it edits the
first video frame, then establishes an alignment between the delivered motions
and user prompts, and eventually propagates the edited contents to all other
frames based on such alignment. Furthermore, we curate a testing benchmark,
namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering
various types of prompts and difficulties. Experimental results and analyses
illustrate the outperforming performance, visual consistency, and inference
efficiency of our method compared to existing state-of-the-art studies.Summary
AI-Generated Summary