Flux Stable : Couches Essentielles pour l'Édition d'Images sans Entraînement
Stable Flow: Vital Layers for Training-Free Image Editing
November 21, 2024
Auteurs: Omri Avrahami, Or Patashnik, Ohad Fried, Egor Nemchinov, Kfir Aberman, Dani Lischinski, Daniel Cohen-Or
cs.AI
Résumé
Les modèles de diffusion ont révolutionné le domaine de la synthèse et de l'édition de contenu. Les modèles récents ont remplacé l'architecture UNet traditionnelle par le Transformateur de Diffusion (DiT) et ont utilisé l'appariement de flux pour améliorer l'entraînement et l'échantillonnage. Cependant, ils présentent une diversité de génération limitée. Dans ce travail, nous exploitons cette limitation pour effectuer des éditions d'images cohérentes via l'injection sélective de caractéristiques d'attention. Le principal défi est que, contrairement aux modèles basés sur UNet, DiT ne possède pas de structure de synthèse de grossier à fin, ce qui rend incertaines les couches dans lesquelles effectuer l'injection. Par conséquent, nous proposons une méthode automatique pour identifier les "couches vitales" au sein de DiT, cruciales pour la formation de l'image, et démontrons comment ces couches facilitent une gamme d'éditions stables contrôlées, allant de modifications non rigides à l'ajout d'objets, en utilisant le même mécanisme. Ensuite, pour permettre l'édition d'images réelles, nous introduisons une méthode d'inversion d'image améliorée pour les modèles de flux. Enfin, nous évaluons notre approche à travers des comparaisons qualitatives et quantitatives, ainsi qu'une étude utilisateur, et démontrons son efficacité dans de multiples applications. La page du projet est disponible sur https://omriavrahami.com/stable-flow.
English
Diffusion models have revolutionized the field of content synthesis and
editing. Recent models have replaced the traditional UNet architecture with the
Diffusion Transformer (DiT), and employed flow-matching for improved training
and sampling. However, they exhibit limited generation diversity. In this work,
we leverage this limitation to perform consistent image edits via selective
injection of attention features. The main challenge is that, unlike the
UNet-based models, DiT lacks a coarse-to-fine synthesis structure, making it
unclear in which layers to perform the injection. Therefore, we propose an
automatic method to identify "vital layers" within DiT, crucial for image
formation, and demonstrate how these layers facilitate a range of controlled
stable edits, from non-rigid modifications to object addition, using the same
mechanism. Next, to enable real-image editing, we introduce an improved image
inversion method for flow models. Finally, we evaluate our approach through
qualitative and quantitative comparisons, along with a user study, and
demonstrate its effectiveness across multiple applications. The project page is
available at https://omriavrahami.com/stable-flowSummary
AI-Generated Summary