PixelMan: Modifica coerente degli oggetti con modelli di diffusione tramite manipolazione e generazione di pixel
PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation
December 18, 2024
Autori: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu
cs.AI
Abstract
Ricerche recenti esplorano il potenziale dei Modelli a Diffusione (DM) per la modifica coerente degli oggetti, che mira a modificare la posizione, le dimensioni e la composizione degli oggetti, mantenendo la coerenza degli oggetti e dello sfondo senza alterarne la texture e gli attributi. I metodi attuali per l'inferenza spesso si basano sull'inversione di DDIM, compromettendo intrinsecamente l'efficienza e la coerenza ottenibile delle immagini modificate. Metodi recenti utilizzano anche la guida energetica che aggiorna in modo iterativo il rumore previsto e può allontanare i latenti dall'immagine originale, causando distorsioni. In questo articolo, proponiamo PixelMan, un metodo privo di inversione e di addestramento per ottenere una modifica coerente degli oggetti tramite Manipolazione e generazione di pixel, dove creiamo direttamente una copia duplicata dell'oggetto sorgente nella posizione di destinazione nello spazio dei pixel e introduciamo un approccio di campionamento efficiente per armonizzare in modo iterativo l'oggetto manipolato nella posizione di destinazione e per inpaintare la sua posizione originale, garantendo al contempo la coerenza dell'immagine ancorando l'immagine modificata da generare all'immagine manipolata a livello di pixel e introducendo varie tecniche di ottimizzazione che conservano la coerenza durante l'inferenza. Valutazioni sperimentali basate su set di dati di riferimento e ampie comparazioni visive mostrano che in soli 16 passaggi di inferenza, PixelMan supera una serie di metodi all'avanguardia basati sull'addestramento e privi di addestramento (di solito richiedendo 50 passaggi) su molteplici compiti di modifica coerente degli oggetti.
English
Recent research explores the potential of Diffusion Models (DMs) for
consistent object editing, which aims to modify object position, size, and
composition, etc., while preserving the consistency of objects and background
without changing their texture and attributes. Current inference-time methods
often rely on DDIM inversion, which inherently compromises efficiency and the
achievable consistency of edited images. Recent methods also utilize energy
guidance which iteratively updates the predicted noise and can drive the
latents away from the original image, resulting in distortions. In this paper,
we propose PixelMan, an inversion-free and training-free method for achieving
consistent object editing via Pixel Manipulation and generation, where we
directly create a duplicate copy of the source object at target location in the
pixel space, and introduce an efficient sampling approach to iteratively
harmonize the manipulated object into the target location and inpaint its
original location, while ensuring image consistency by anchoring the edited
image to be generated to the pixel-manipulated image as well as by introducing
various consistency-preserving optimization techniques during inference.
Experimental evaluations based on benchmark datasets as well as extensive
visual comparisons show that in as few as 16 inference steps, PixelMan
outperforms a range of state-of-the-art training-based and training-free
methods (usually requiring 50 steps) on multiple consistent object editing
tasks.Summary
AI-Generated Summary