FramePainter: Die Ausstattung der interaktiven Bildbearbeitung mit Video-Diffusionsprioritäten

FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

January 14, 2025
Autoren: Yabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo
cs.AI

Zusammenfassung

Die interaktive Bildbearbeitung ermöglicht es Benutzern, Bilder durch visuelle Interaktionsoperationen wie Zeichnen, Klicken und Ziehen zu modifizieren. Bestehende Methoden konstruieren solche Überwachungssignale aus Videos, da sie erfassen, wie sich Objekte durch verschiedene physische Interaktionen verändern. Diese Modelle basieren jedoch in der Regel auf Text-zu-Bild-Diffusionsmodellen, was massive Trainingsdaten und einen zusätzlichen Referenz-Encoder erfordert, um reale Dynamiken und visuelle Konsistenz zu erlernen. In diesem Paper formulieren wir diese Aufgabe als ein Problem der Bild-zu-Video-Generierung um, um leistungsstarke Videodiffusionsprioritäten zu erben, um die Trainingskosten zu reduzieren und die zeitliche Konsistenz zu gewährleisten. Speziell stellen wir FramePainter als eine effiziente Instanziierung dieser Formulierung vor. Initialisiert mit Stable Video Diffusion, verwendet es nur einen leichten, spärlichen Steuer-Encoder, um Bearbeitungssignale einzuführen. Angesichts der Einschränkungen der zeitlichen Aufmerksamkeit bei der Bewältigung großer Bewegungen zwischen zwei Frames schlagen wir außerdem eine passende Aufmerksamkeit vor, um das Rezeptive Feld zu vergrößern und eine dichte Korrespondenz zwischen bearbeiteten und Quellbild-Token zu fördern. Wir heben die Wirksamkeit und Effizienz von FramePainter bei verschiedenen Bearbeitungssignalen hervor: Es übertrifft deutlich frühere State-of-the-Art-Methoden mit weit weniger Trainingsdaten und erreicht eine hochgradig nahtlose und kohärente Bearbeitung von Bildern, z. B. automatische Anpassung der Reflexion der Tasse. Darüber hinaus zeigt FramePainter auch eine außergewöhnliche Verallgemeinerung in Szenarien, die in realen Videos nicht vorhanden sind, z. B. die Umwandlung des Clownfischs in eine haiähnliche Form. Unser Code wird unter https://github.com/YBYBZhang/FramePainter verfügbar sein.
English
Interactive image editing allows users to modify images through visual interaction operations such as drawing, clicking, and dragging. Existing methods construct such supervision signals from videos, as they capture how objects change with various physical interactions. However, these models are usually built upon text-to-image diffusion models, so necessitate (i) massive training samples and (ii) an additional reference encoder to learn real-world dynamics and visual consistency. In this paper, we reformulate this task as an image-to-video generation problem, so that inherit powerful video diffusion priors to reduce training costs and ensure temporal consistency. Specifically, we introduce FramePainter as an efficient instantiation of this formulation. Initialized with Stable Video Diffusion, it only uses a lightweight sparse control encoder to inject editing signals. Considering the limitations of temporal attention in handling large motion between two frames, we further propose matching attention to enlarge the receptive field while encouraging dense correspondence between edited and source image tokens. We highlight the effectiveness and efficiency of FramePainter across various of editing signals: it domainantly outperforms previous state-of-the-art methods with far less training data, achieving highly seamless and coherent editing of images, \eg, automatically adjust the reflection of the cup. Moreover, FramePainter also exhibits exceptional generalization in scenarios not present in real-world videos, \eg, transform the clownfish into shark-like shape. Our code will be available at https://github.com/YBYBZhang/FramePainter.

Summary

AI-Generated Summary

PDF172January 15, 2025