Stabiler Fluss: Wesentliche Schichten für Training-freie Bildbearbeitung
Stable Flow: Vital Layers for Training-Free Image Editing
November 21, 2024
Autoren: Omri Avrahami, Or Patashnik, Ohad Fried, Egor Nemchinov, Kfir Aberman, Dani Lischinski, Daniel Cohen-Or
cs.AI
Zusammenfassung
Diffusionsmodelle haben das Gebiet der Inhalts-Synthese und -Bearbeitung revolutioniert. Aktuelle Modelle haben die traditionelle UNet-Architektur durch den Diffusions-Transformer (DiT) ersetzt und die Flussanpassung für verbessertes Training und Sampling eingesetzt. Allerdings weisen sie eine begrenzte Generierungsvielfalt auf. In dieser Arbeit nutzen wir diese Einschränkung, um konsistente Bildbearbeitungen durch selektive Injektion von Aufmerksamkeitsmerkmalen durchzuführen. Die Hauptherausforderung besteht darin, dass DiT im Gegensatz zu den UNet-basierten Modellen über keine grob-zu-fein-Synthesestruktur verfügt, wodurch unklar ist, in welchen Schichten die Injektion durchgeführt werden soll. Daher schlagen wir eine automatische Methode vor, um "wichtige Schichten" innerhalb von DiT zu identifizieren, die für die Bildentstehung entscheidend sind, und zeigen auf, wie diese Schichten eine Reihe von kontrollierten stabilen Bearbeitungen ermöglichen, von nicht-starren Modifikationen bis hin zur Objektzusatznutzung, unter Verwendung des gleichen Mechanismus. Als nächstes führen wir eine verbesserte Bildumkehrmethode für Flussmodelle ein, um eine Bearbeitung von echten Bildern zu ermöglichen. Abschließend bewerten wir unseren Ansatz anhand qualitativer und quantitativer Vergleiche sowie einer Benutzerstudie und zeigen dessen Wirksamkeit in verschiedenen Anwendungen auf. Die Projektseite ist unter https://omriavrahami.com/stable-flow verfügbar.
English
Diffusion models have revolutionized the field of content synthesis and
editing. Recent models have replaced the traditional UNet architecture with the
Diffusion Transformer (DiT), and employed flow-matching for improved training
and sampling. However, they exhibit limited generation diversity. In this work,
we leverage this limitation to perform consistent image edits via selective
injection of attention features. The main challenge is that, unlike the
UNet-based models, DiT lacks a coarse-to-fine synthesis structure, making it
unclear in which layers to perform the injection. Therefore, we propose an
automatic method to identify "vital layers" within DiT, crucial for image
formation, and demonstrate how these layers facilitate a range of controlled
stable edits, from non-rigid modifications to object addition, using the same
mechanism. Next, to enable real-image editing, we introduce an improved image
inversion method for flow models. Finally, we evaluate our approach through
qualitative and quantitative comparisons, along with a user study, and
demonstrate its effectiveness across multiple applications. The project page is
available at https://omriavrahami.com/stable-flowSummary
AI-Generated Summary