Flusso Stabile: Strati Vitali per la Modifica di Immagini Senza Addestramento
Stable Flow: Vital Layers for Training-Free Image Editing
November 21, 2024
Autori: Omri Avrahami, Or Patashnik, Ohad Fried, Egor Nemchinov, Kfir Aberman, Dani Lischinski, Daniel Cohen-Or
cs.AI
Abstract
I modelli di diffusione hanno rivoluzionato il campo della sintesi e modifica dei contenuti. I modelli recenti hanno sostituito l'architettura UNet tradizionale con il Transformer di Diffusione (DiT) e hanno utilizzato il flow-matching per un miglioramento dell'addestramento e del campionamento. Tuttavia, mostrano una limitata diversità nella generazione. In questo lavoro, sfruttiamo questa limitazione per eseguire modifiche coerenti alle immagini tramite l'iniezione selettiva delle caratteristiche di attenzione. La sfida principale è che, a differenza dei modelli basati su UNet, DiT manca di una struttura di sintesi da grossolana a fine, rendendo poco chiaro in quali livelli eseguire l'iniezione. Pertanto, proponiamo un metodo automatico per identificare "livelli vitali" all'interno di DiT, cruciali per la formazione dell'immagine, e dimostriamo come questi livelli facilitino una serie di modifiche stabili controllate, da modifiche non rigide all'aggiunta di oggetti, utilizzando lo stesso meccanismo. Successivamente, per consentire la modifica di immagini reali, introduciamo un metodo di inversione delle immagini migliorato per i modelli di flusso. Infine, valutiamo il nostro approccio attraverso confronti qualitativi e quantitativi, insieme a uno studio utente, e dimostriamo la sua efficacia in diverse applicazioni. La pagina del progetto è disponibile su https://omriavrahami.com/stable-flow.
English
Diffusion models have revolutionized the field of content synthesis and
editing. Recent models have replaced the traditional UNet architecture with the
Diffusion Transformer (DiT), and employed flow-matching for improved training
and sampling. However, they exhibit limited generation diversity. In this work,
we leverage this limitation to perform consistent image edits via selective
injection of attention features. The main challenge is that, unlike the
UNet-based models, DiT lacks a coarse-to-fine synthesis structure, making it
unclear in which layers to perform the injection. Therefore, we propose an
automatic method to identify "vital layers" within DiT, crucial for image
formation, and demonstrate how these layers facilitate a range of controlled
stable edits, from non-rigid modifications to object addition, using the same
mechanism. Next, to enable real-image editing, we introduce an improved image
inversion method for flow models. Finally, we evaluate our approach through
qualitative and quantitative comparisons, along with a user study, and
demonstrate its effectiveness across multiple applications. The project page is
available at https://omriavrahami.com/stable-flowSummary
AI-Generated Summary