Stabiler Fluss: Wesentliche Schichten für Training-freie Bildbearbeitung

Stable Flow: Vital Layers for Training-Free Image Editing

November 21, 2024
Autoren: Omri Avrahami, Or Patashnik, Ohad Fried, Egor Nemchinov, Kfir Aberman, Dani Lischinski, Daniel Cohen-Or
cs.AI

Zusammenfassung

Diffusionsmodelle haben das Gebiet der Inhalts-Synthese und -Bearbeitung revolutioniert. Aktuelle Modelle haben die traditionelle UNet-Architektur durch den Diffusions-Transformer (DiT) ersetzt und die Flussanpassung für verbessertes Training und Sampling eingesetzt. Allerdings weisen sie eine begrenzte Generierungsvielfalt auf. In dieser Arbeit nutzen wir diese Einschränkung, um konsistente Bildbearbeitungen durch selektive Injektion von Aufmerksamkeitsmerkmalen durchzuführen. Die Hauptherausforderung besteht darin, dass DiT im Gegensatz zu den UNet-basierten Modellen über keine grob-zu-fein-Synthesestruktur verfügt, wodurch unklar ist, in welchen Schichten die Injektion durchgeführt werden soll. Daher schlagen wir eine automatische Methode vor, um "wichtige Schichten" innerhalb von DiT zu identifizieren, die für die Bildentstehung entscheidend sind, und zeigen auf, wie diese Schichten eine Reihe von kontrollierten stabilen Bearbeitungen ermöglichen, von nicht-starren Modifikationen bis hin zur Objektzusatznutzung, unter Verwendung des gleichen Mechanismus. Als nächstes führen wir eine verbesserte Bildumkehrmethode für Flussmodelle ein, um eine Bearbeitung von echten Bildern zu ermöglichen. Abschließend bewerten wir unseren Ansatz anhand qualitativer und quantitativer Vergleiche sowie einer Benutzerstudie und zeigen dessen Wirksamkeit in verschiedenen Anwendungen auf. Die Projektseite ist unter https://omriavrahami.com/stable-flow verfügbar.
English
Diffusion models have revolutionized the field of content synthesis and editing. Recent models have replaced the traditional UNet architecture with the Diffusion Transformer (DiT), and employed flow-matching for improved training and sampling. However, they exhibit limited generation diversity. In this work, we leverage this limitation to perform consistent image edits via selective injection of attention features. The main challenge is that, unlike the UNet-based models, DiT lacks a coarse-to-fine synthesis structure, making it unclear in which layers to perform the injection. Therefore, we propose an automatic method to identify "vital layers" within DiT, crucial for image formation, and demonstrate how these layers facilitate a range of controlled stable edits, from non-rigid modifications to object addition, using the same mechanism. Next, to enable real-image editing, we introduce an improved image inversion method for flow models. Finally, we evaluate our approach through qualitative and quantitative comparisons, along with a user study, and demonstrate its effectiveness across multiple applications. The project page is available at https://omriavrahami.com/stable-flow

Summary

AI-Generated Summary

PDF102November 22, 2024