Modifica delle immagini senza necessità di ottimizzazione con fedeltà e editabilità tramite un modello unificato di diffusione latente
Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model
April 8, 2025
Autori: Qi Mao, Lan Chen, Yuchao Gu, Mike Zheng Shou, Ming-Hsuan Yang
cs.AI
Abstract
Bilanciare fedeltà e modificabilità è essenziale nell'editing di immagini basato su testo (TIE), dove gli errori portano comunemente a problemi di sovra- o sotto-modifica. I metodi esistenti si basano tipicamente su iniezioni di attenzione per preservare la struttura e sfruttano le capacità intrinseche di allineamento al testo dei modelli pre-addestrati di testo-immagine (T2I) per la modificabilità, ma mancano di meccanismi espliciti e unificati per bilanciare correttamente questi due obiettivi. In questo lavoro, introduciamo UnifyEdit, un metodo senza tuning che esegue l'ottimizzazione latente della diffusione per consentire un'integrazione bilanciata di fedeltà e modificabilità all'interno di un framework unificato. A differenza delle iniezioni dirette di attenzione, sviluppiamo due vincoli basati sull'attenzione: un vincolo di preservazione dell'auto-attenzione (SA) per la fedeltà strutturale e un vincolo di allineamento dell'attenzione incrociata (CA) per migliorare l'allineamento al testo e aumentare la modificabilità. Tuttavia, applicare entrambi i vincoli simultaneamente può portare a conflitti di gradiente, dove la predominanza di un vincolo risulta in sovra- o sotto-modifica. Per affrontare questa sfida, introduciamo uno scheduler adattivo basato sul tempo che regola dinamicamente l'influenza di questi vincoli, guidando il latente di diffusione verso un equilibrio ottimale. Estesi esperimenti quantitativi e qualitativi convalidano l'efficacia del nostro approccio, dimostrando la sua superiorità nel raggiungere un robusto equilibrio tra preservazione della struttura e allineamento al testo in varie attività di editing, superando altri metodi all'avanguardia. Il codice sorgente sarà disponibile all'indirizzo https://github.com/CUC-MIPG/UnifyEdit.
English
Balancing fidelity and editability is essential in text-based image editing
(TIE), where failures commonly lead to over- or under-editing issues. Existing
methods typically rely on attention injections for structure preservation and
leverage the inherent text alignment capabilities of pre-trained text-to-image
(T2I) models for editability, but they lack explicit and unified mechanisms to
properly balance these two objectives. In this work, we introduce UnifyEdit, a
tuning-free method that performs diffusion latent optimization to enable a
balanced integration of fidelity and editability within a unified framework.
Unlike direct attention injections, we develop two attention-based constraints:
a self-attention (SA) preservation constraint for structural fidelity, and a
cross-attention (CA) alignment constraint to enhance text alignment for
improved editability. However, simultaneously applying both constraints can
lead to gradient conflicts, where the dominance of one constraint results in
over- or under-editing. To address this challenge, we introduce an adaptive
time-step scheduler that dynamically adjusts the influence of these
constraints, guiding the diffusion latent toward an optimal balance. Extensive
quantitative and qualitative experiments validate the effectiveness of our
approach, demonstrating its superiority in achieving a robust balance between
structure preservation and text alignment across various editing tasks,
outperforming other state-of-the-art methods. The source code will be available
at https://github.com/CUC-MIPG/UnifyEdit.Summary
AI-Generated Summary