StableV2V: Stabilizzazione della coerenza della forma nella modifica video a video

Abstract

I recenti progressi dell'IA generativa hanno notevolmente favorito la creazione e la modifica di contenuti, dove gli studi prevalenti estendono ulteriormente questo progresso entusiasmante all'editing video. In tal modo, questi studi trasferiscono principalmente i modelli di movimento intrinseco dai video di origine a quelli modificati, dove spesso si osservano risultati con una coerenza inferiore rispetto agli input dell'utente, a causa della mancanza di allineamenti specifici tra i movimenti forniti e i contenuti modificati. Per affrontare questa limitazione, presentiamo in questo articolo un metodo di editing video basato sulla coerenza della forma, chiamato StableV2V. Il nostro metodo suddivide l'intero processo di editing in diverse procedure sequenziali, in cui modifica il primo frame video, stabilisce un allineamento tra i movimenti forniti e gli input dell'utente e infine propaga i contenuti modificati a tutti gli altri frame basandosi su tale allineamento. Inoltre, abbiamo creato un benchmark di test, chiamato DAVIS-Edit, per una valutazione completa dell'editing video, considerando vari tipi di input e difficoltà. I risultati sperimentali e le analisi illustrano le prestazioni superiori, la coerenza visiva e l'efficienza inferenziale del nostro metodo rispetto agli studi all'avanguardia esistenti.

English

Recent advancements of generative AI have significantly promoted content creation and editing, where prevailing studies further extend this exciting progress to video editing. In doing so, these studies mainly transfer the inherent motion patterns from the source videos to the edited ones, where results with inferior consistency to user prompts are often observed, due to the lack of particular alignments between the delivered motions and edited contents. To address this limitation, we present a shape-consistent video editing method, namely StableV2V, in this paper. Our method decomposes the entire editing pipeline into several sequential procedures, where it edits the first video frame, then establishes an alignment between the delivered motions and user prompts, and eventually propagates the edited contents to all other frames based on such alignment. Furthermore, we curate a testing benchmark, namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering various types of prompts and difficulties. Experimental results and analyses illustrate the outperforming performance, visual consistency, and inference efficiency of our method compared to existing state-of-the-art studies.

StableV2V: Stabilizzazione della coerenza della forma nella modifica video a video

StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Abstract

Support