Stabiele Stroom: Essentiële Lagen voor Trainingvrije Beeldbewerking
Stable Flow: Vital Layers for Training-Free Image Editing
November 21, 2024
Auteurs: Omri Avrahami, Or Patashnik, Ohad Fried, Egor Nemchinov, Kfir Aberman, Dani Lischinski, Daniel Cohen-Or
cs.AI
Samenvatting
Diffusiemodellen hebben het vakgebied van inhoudssynthese en -bewerking gerevolutioneerd. Recente modellen hebben de traditionele UNet-architectuur vervangen door de Diffusion Transformer (DiT) en hebben flow-matching toegepast voor verbeterde training en bemonstering. Ze vertonen echter beperkte generatiediversiteit. In dit werk benutten we deze beperking om consistente beeldbewerkingen uit te voeren door selectieve injectie van aandachtskenmerken. De belangrijkste uitdaging is dat DiT, in tegenstelling tot op UNet gebaseerde modellen, geen grof-naar-fijne synthesestructuur heeft, waardoor het onduidelijk is in welke lagen de injectie moet plaatsvinden. Daarom stellen we een automatische methode voor om "essentiële lagen" binnen DiT te identificeren, die cruciaal zijn voor beeldvorming, en laten zien hoe deze lagen een reeks gecontroleerde stabiele bewerkingen mogelijk maken, van niet-rigide aanpassingen tot objecttoevoegingen, met behulp van hetzelfde mechanisme. Vervolgens introduceren we een verbeterde beeldomkeringmethode voor flowmodellen om echte beeldbewerking mogelijk te maken. Tot slot evalueren we onze aanpak aan de hand van kwalitatieve en kwantitatieve vergelijkingen, samen met een gebruikersstudie, en tonen we de effectiviteit ervan aan bij meerdere toepassingen. De projectpagina is beschikbaar op https://omriavrahami.com/stable-flow.
English
Diffusion models have revolutionized the field of content synthesis and
editing. Recent models have replaced the traditional UNet architecture with the
Diffusion Transformer (DiT), and employed flow-matching for improved training
and sampling. However, they exhibit limited generation diversity. In this work,
we leverage this limitation to perform consistent image edits via selective
injection of attention features. The main challenge is that, unlike the
UNet-based models, DiT lacks a coarse-to-fine synthesis structure, making it
unclear in which layers to perform the injection. Therefore, we propose an
automatic method to identify "vital layers" within DiT, crucial for image
formation, and demonstrate how these layers facilitate a range of controlled
stable edits, from non-rigid modifications to object addition, using the same
mechanism. Next, to enable real-image editing, we introduce an improved image
inversion method for flow models. Finally, we evaluate our approach through
qualitative and quantitative comparisons, along with a user study, and
demonstrate its effectiveness across multiple applications. The project page is
available at https://omriavrahami.com/stable-flowSummary
AI-Generated Summary