StableV2V: Stabilizzazione della coerenza della forma nella modifica video a video
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
November 17, 2024
Autori: Chang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
cs.AI
Abstract
I recenti progressi dell'IA generativa hanno notevolmente favorito la creazione e la modifica di contenuti, dove gli studi prevalenti estendono ulteriormente questo progresso entusiasmante all'editing video. In tal modo, questi studi trasferiscono principalmente i modelli di movimento intrinseco dai video di origine a quelli modificati, dove spesso si osservano risultati con una coerenza inferiore rispetto agli input dell'utente, a causa della mancanza di allineamenti specifici tra i movimenti forniti e i contenuti modificati. Per affrontare questa limitazione, presentiamo in questo articolo un metodo di editing video basato sulla coerenza della forma, chiamato StableV2V. Il nostro metodo suddivide l'intero processo di editing in diverse procedure sequenziali, in cui modifica il primo frame video, stabilisce un allineamento tra i movimenti forniti e gli input dell'utente e infine propaga i contenuti modificati a tutti gli altri frame basandosi su tale allineamento. Inoltre, abbiamo creato un benchmark di test, chiamato DAVIS-Edit, per una valutazione completa dell'editing video, considerando vari tipi di input e difficoltà. I risultati sperimentali e le analisi illustrano le prestazioni superiori, la coerenza visiva e l'efficienza inferenziale del nostro metodo rispetto agli studi all'avanguardia esistenti.
English
Recent advancements of generative AI have significantly promoted content
creation and editing, where prevailing studies further extend this exciting
progress to video editing. In doing so, these studies mainly transfer the
inherent motion patterns from the source videos to the edited ones, where
results with inferior consistency to user prompts are often observed, due to
the lack of particular alignments between the delivered motions and edited
contents. To address this limitation, we present a shape-consistent video
editing method, namely StableV2V, in this paper. Our method decomposes the
entire editing pipeline into several sequential procedures, where it edits the
first video frame, then establishes an alignment between the delivered motions
and user prompts, and eventually propagates the edited contents to all other
frames based on such alignment. Furthermore, we curate a testing benchmark,
namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering
various types of prompts and difficulties. Experimental results and analyses
illustrate the outperforming performance, visual consistency, and inference
efficiency of our method compared to existing state-of-the-art studies.Summary
AI-Generated Summary