StableV2V: Stabiliseren van Vormconsistentie bij Video-naar-Video Bewerking
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
November 17, 2024
Auteurs: Chang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
cs.AI
Samenvatting
Recente ontwikkelingen in generatieve AI hebben de inhoudscreatie en -bewerking aanzienlijk bevorderd, waarbij heersende studies deze spannende vooruitgang verder uitbreiden naar videobewerking. Bij het doen hiervan transfereren deze studies voornamelijk de inherente bewegingspatronen van de bronvideo's naar de bewerkte video's, waarbij resultaten met inferieure consistentie ten opzichte van gebruikersaanwijzingen vaak worden waargenomen, vanwege het gebrek aan specifieke afstemming tussen de geleverde bewegingen en bewerkte inhoud. Om deze beperking aan te pakken, presenteren we in dit artikel een vorm-consistente videobewerkingsmethode, namelijk StableV2V. Onze methode decomposeert het gehele bewerkingsproces in verschillende opeenvolgende procedures, waarbij het de eerste videoframe bewerkt, vervolgens een afstemming tot stand brengt tussen de geleverde bewegingen en gebruikersaanwijzingen, en uiteindelijk de bewerkte inhoud verspreidt naar alle andere frames op basis van deze afstemming. Bovendien stellen we een testbenchmark samen, genaamd DAVIS-Edit, voor een uitgebreide evaluatie van videobewerking, waarbij verschillende soorten aanwijzingen en moeilijkheden in overweging worden genomen. Experimentele resultaten en analyses illustreren de overtreffende prestaties, visuele consistentie en inferentie-efficiëntie van onze methode in vergelijking met bestaande state-of-the-art studies.
English
Recent advancements of generative AI have significantly promoted content
creation and editing, where prevailing studies further extend this exciting
progress to video editing. In doing so, these studies mainly transfer the
inherent motion patterns from the source videos to the edited ones, where
results with inferior consistency to user prompts are often observed, due to
the lack of particular alignments between the delivered motions and edited
contents. To address this limitation, we present a shape-consistent video
editing method, namely StableV2V, in this paper. Our method decomposes the
entire editing pipeline into several sequential procedures, where it edits the
first video frame, then establishes an alignment between the delivered motions
and user prompts, and eventually propagates the edited contents to all other
frames based on such alignment. Furthermore, we curate a testing benchmark,
namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering
various types of prompts and difficulties. Experimental results and analyses
illustrate the outperforming performance, visual consistency, and inference
efficiency of our method compared to existing state-of-the-art studies.Summary
AI-Generated Summary