SwiftEdit: Modifica di immagini guidata da testo ad alta velocità tramite diffusione in un passaggio
SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion
December 5, 2024
Autori: Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham
cs.AI
Abstract
I recenti progressi nell'editing delle immagini guidato dal testo consentono agli utenti di eseguire modifiche alle immagini attraverso semplici input di testo, sfruttando i vasti precedenti dei modelli di testo-immagine basati sulla diffusione a più passaggi. Tuttavia, questi metodi spesso non riescono a soddisfare le esigenze di velocità richieste per le applicazioni del mondo reale e su dispositivi a causa del costoso processo di inversione e campionamento a più passaggi coinvolti. In risposta a ciò, presentiamo SwiftEdit, uno strumento di editing semplice ma altamente efficiente che consente l'editing istantaneo guidato dal testo (in 0,23 secondi). Il progresso di SwiftEdit risiede nelle sue due nuove contribuzioni: un framework di inversione a un passaggio che consente la ricostruzione dell'immagine in un passaggio tramite inversione e una tecnica di editing guidata da maschera con il nostro proposto meccanismo di ridimensionamento dell'attenzione per eseguire l'editing localizzato delle immagini. Sono forniti ampi esperimenti per dimostrare l'efficacia e l'efficienza di SwiftEdit. In particolare, SwiftEdit consente l'editing istantaneo guidato dal testo, che è estremamente più veloce rispetto ai metodi a più passaggi precedenti (almeno 50 volte più veloce), pur mantenendo prestazioni competitive nei risultati di editing. La nostra pagina del progetto si trova su: https://swift-edit.github.io/
English
Recent advances in text-guided image editing enable users to perform image
edits through simple text inputs, leveraging the extensive priors of multi-step
diffusion-based text-to-image models. However, these methods often fall short
of the speed demands required for real-world and on-device applications due to
the costly multi-step inversion and sampling process involved. In response to
this, we introduce SwiftEdit, a simple yet highly efficient editing tool that
achieve instant text-guided image editing (in 0.23s). The advancement of
SwiftEdit lies in its two novel contributions: a one-step inversion framework
that enables one-step image reconstruction via inversion and a mask-guided
editing technique with our proposed attention rescaling mechanism to perform
localized image editing. Extensive experiments are provided to demonstrate the
effectiveness and efficiency of SwiftEdit. In particular, SwiftEdit enables
instant text-guided image editing, which is extremely faster than previous
multi-step methods (at least 50 times faster) while maintain a competitive
performance in editing results. Our project page is at:
https://swift-edit.github.io/Summary
AI-Generated Summary