FlowEdit: Modifica del testo senza inversione utilizzando modelli di flusso pre-addestrati
FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models
December 11, 2024
Autori: Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI
Abstract
Modificare immagini reali utilizzando un modello di diffusione/flusso testo-immagine (T2I) pre-addestrato spesso comporta l'inversione dell'immagine nella relativa mappa di rumore corrispondente. Tuttavia, l'inversione di per sé è tipicamente insufficiente per ottenere risultati soddisfacenti, pertanto molti metodi intervengono ulteriormente nel processo di campionamento. Tali metodi raggiungono risultati migliorati ma non sono facilmente trasferibili tra architetture di modelli. Qui presentiamo FlowEdit, un metodo di modifica basato su testo per modelli di flusso T2I pre-addestrati, che è privo di inversione, ottimizzazione e indipendente dal modello. Il nostro metodo costruisce un ODE che mappa direttamente tra le distribuzioni di origine e di destinazione (corrispondenti alle istruzioni di testo di origine e di destinazione) e raggiunge un costo di trasporto inferiore rispetto all'approccio di inversione. Ciò porta a risultati all'avanguardia, come illustrato con Stable Diffusion 3 e FLUX. Il codice e gli esempi sono disponibili sulla pagina web del progetto.
English
Editing real images using a pre-trained text-to-image (T2I) diffusion/flow
model often involves inverting the image into its corresponding noise map.
However, inversion by itself is typically insufficient for obtaining
satisfactory results, and therefore many methods additionally intervene in the
sampling process. Such methods achieve improved results but are not seamlessly
transferable between model architectures. Here, we introduce FlowEdit, a
text-based editing method for pre-trained T2I flow models, which is
inversion-free, optimization-free and model agnostic. Our method constructs an
ODE that directly maps between the source and target distributions
(corresponding to the source and target text prompts) and achieves a lower
transport cost than the inversion approach. This leads to state-of-the-art
results, as we illustrate with Stable Diffusion 3 and FLUX. Code and examples
are available on the project's webpage.Summary
AI-Generated Summary