StableV2V: 비디오 편집에서 모양 일관성 안정화하기

StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

November 17, 2024
저자: Chang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
cs.AI

초록

최근 생성적 AI의 발전은 콘텐츠 생성 및 편집을 현저히 촉진시켰으며, 주요 연구들은 이러한 흥미로운 진전을 비디오 편집으로 더 확장하고 있다. 이를 위해 이러한 연구들은 주로 원본 비디오로부터 고유한 움직임 패턴을 편집된 비디오로 전달하며, 사용자 프롬프트와의 일관성 부족으로 인해 결과물이 종종 낮은 일관성을 보인다. 이 한계를 해결하기 위해 본 논문에서는 모양 일관성 비디오 편집 방법인 StableV2V를 제안한다. 우리의 방법은 전체 편집 파이프라인을 여러 순차적 절차로 분해하여 첫 번째 비디오 프레임을 편집한 후, 전달된 움직임과 사용자 프롬프트 간의 정렬을 수립하고, 이러한 정렬을 기반으로 모든 다른 프레임에 편집된 내용을 전파한다. 더불어, 다양한 유형의 프롬프트와 어려움을 고려한 비디오 편집의 포괄적인 평가를 위해 DAVIS-Edit라는 테스트 벤치마크를 선별한다. 실험 결과와 분석은 우리의 방법이 기존 최첨단 연구에 비해 우수한 성능, 시각적 일관성 및 추론 효율성을 보여준다.
English
Recent advancements of generative AI have significantly promoted content creation and editing, where prevailing studies further extend this exciting progress to video editing. In doing so, these studies mainly transfer the inherent motion patterns from the source videos to the edited ones, where results with inferior consistency to user prompts are often observed, due to the lack of particular alignments between the delivered motions and edited contents. To address this limitation, we present a shape-consistent video editing method, namely StableV2V, in this paper. Our method decomposes the entire editing pipeline into several sequential procedures, where it edits the first video frame, then establishes an alignment between the delivered motions and user prompts, and eventually propagates the edited contents to all other frames based on such alignment. Furthermore, we curate a testing benchmark, namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering various types of prompts and difficulties. Experimental results and analyses illustrate the outperforming performance, visual consistency, and inference efficiency of our method compared to existing state-of-the-art studies.

Summary

AI-Generated Summary

PDF95November 19, 2024