FramePainter: 비디오 확산을 활용한 대화형 이미지 편집 지식
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors
January 14, 2025
저자: Yabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo
cs.AI
초록
대화형 이미지 편집은 사용자가 그리기, 클릭, 드래그 등의 시각적 상호작용 작업을 통해 이미지를 수정할 수 있게 합니다. 기존 방법은 비디오에서 이러한 감독 신호를 구성하는데, 이는 물체가 다양한 물리적 상호작용으로 어떻게 변하는지를 포착하기 때문입니다. 그러나 이러한 모델들은 일반적으로 텍스트-이미지 확산 모델에 기반을 두기 때문에 (i) 대규모 훈련 샘플과 (ii) 실제 세계의 동적 및 시각적 일관성을 학습하기 위한 추가 참조 인코더가 필요합니다. 본 논문에서는 이 작업을 이미지-비디오 생성 문제로 재정의하여 강력한 비디오 확산 사전을 상속하여 훈련 비용을 줄이고 시간적 일관성을 보장합니다. 구체적으로 이 정식화의 효율적 구현인 FramePainter를 소개합니다. 안정적인 비디오 확산으로 초기화된 FramePainter는 가벼운 희소 제어 인코더만 사용하여 편집 신호를 주입합니다. 두 프레임 간의 큰 움직임을 처리하는 데 있어서 시간적 주의의 한계를 고려하여, 편집된 이미지 토큰과 원본 이미지 토큰 간의 밀도 있는 일치를 촉진하면서 수용 영역을 확대하는 일치 주의를 제안합니다. 우리는 다양한 편집 신호에 걸쳐 FramePainter의 효과적이고 효율적인 성능을 강조합니다: 이는 이전 최첨단 방법보다 훨씬 적은 훈련 데이터로 매우 부드럽고 일관된 이미지 편집을 달성하여, 예를 들어, 컵의 반사를 자동으로 조절합니다. 게다가, FramePainter는 실제 세계 비디오에 없는 시나리오에서도 뛰어난 일반화 능력을 보여줍니다. 예를 들어, 클라운피시를 상어 모양으로 변환합니다. 우리의 코드는 https://github.com/YBYBZhang/FramePainter에서 사용할 수 있습니다.
English
Interactive image editing allows users to modify images through visual
interaction operations such as drawing, clicking, and dragging. Existing
methods construct such supervision signals from videos, as they capture how
objects change with various physical interactions. However, these models are
usually built upon text-to-image diffusion models, so necessitate (i) massive
training samples and (ii) an additional reference encoder to learn real-world
dynamics and visual consistency. In this paper, we reformulate this task as an
image-to-video generation problem, so that inherit powerful video diffusion
priors to reduce training costs and ensure temporal consistency. Specifically,
we introduce FramePainter as an efficient instantiation of this formulation.
Initialized with Stable Video Diffusion, it only uses a lightweight sparse
control encoder to inject editing signals. Considering the limitations of
temporal attention in handling large motion between two frames, we further
propose matching attention to enlarge the receptive field while encouraging
dense correspondence between edited and source image tokens. We highlight the
effectiveness and efficiency of FramePainter across various of editing signals:
it domainantly outperforms previous state-of-the-art methods with far less
training data, achieving highly seamless and coherent editing of images, \eg,
automatically adjust the reflection of the cup. Moreover, FramePainter also
exhibits exceptional generalization in scenarios not present in real-world
videos, \eg, transform the clownfish into shark-like shape. Our code will be
available at https://github.com/YBYBZhang/FramePainter.Summary
AI-Generated Summary