Stabiele Stroom: Essentiële Lagen voor Trainingvrije Beeldbewerking

Samenvatting

Diffusiemodellen hebben het vakgebied van inhoudssynthese en -bewerking gerevolutioneerd. Recente modellen hebben de traditionele UNet-architectuur vervangen door de Diffusion Transformer (DiT) en hebben flow-matching toegepast voor verbeterde training en bemonstering. Ze vertonen echter beperkte generatiediversiteit. In dit werk benutten we deze beperking om consistente beeldbewerkingen uit te voeren door selectieve injectie van aandachtskenmerken. De belangrijkste uitdaging is dat DiT, in tegenstelling tot op UNet gebaseerde modellen, geen grof-naar-fijne synthesestructuur heeft, waardoor het onduidelijk is in welke lagen de injectie moet plaatsvinden. Daarom stellen we een automatische methode voor om "essentiële lagen" binnen DiT te identificeren, die cruciaal zijn voor beeldvorming, en laten zien hoe deze lagen een reeks gecontroleerde stabiele bewerkingen mogelijk maken, van niet-rigide aanpassingen tot objecttoevoegingen, met behulp van hetzelfde mechanisme. Vervolgens introduceren we een verbeterde beeldomkeringmethode voor flowmodellen om echte beeldbewerking mogelijk te maken. Tot slot evalueren we onze aanpak aan de hand van kwalitatieve en kwantitatieve vergelijkingen, samen met een gebruikersstudie, en tonen we de effectiviteit ervan aan bij meerdere toepassingen. De projectpagina is beschikbaar op https://omriavrahami.com/stable-flow.

English

Diffusion models have revolutionized the field of content synthesis and editing. Recent models have replaced the traditional UNet architecture with the Diffusion Transformer (DiT), and employed flow-matching for improved training and sampling. However, they exhibit limited generation diversity. In this work, we leverage this limitation to perform consistent image edits via selective injection of attention features. The main challenge is that, unlike the UNet-based models, DiT lacks a coarse-to-fine synthesis structure, making it unclear in which layers to perform the injection. Therefore, we propose an automatic method to identify "vital layers" within DiT, crucial for image formation, and demonstrate how these layers facilitate a range of controlled stable edits, from non-rigid modifications to object addition, using the same mechanism. Next, to enable real-image editing, we introduce an improved image inversion method for flow models. Finally, we evaluate our approach through qualitative and quantitative comparisons, along with a user study, and demonstrate its effectiveness across multiple applications. The project page is available at https://omriavrahami.com/stable-flow

Stabiele Stroom: Essentiële Lagen voor Trainingvrije Beeldbewerking

Stable Flow: Vital Layers for Training-Free Image Editing

Samenvatting

Summary

Support