PixelMan: Edição Consistente de Objetos com Modelos de Difusão via Manipulação e Geração de Pixels
PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation
December 18, 2024
Autores: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu
cs.AI
Resumo
Pesquisas recentes exploram o potencial dos Modelos de Difusão (DMs) para edição consistente de objetos, que visa modificar a posição, tamanho e composição do objeto, etc., preservando a consistência dos objetos e do fundo sem alterar sua textura e atributos. Métodos atuais de inferência frequentemente dependem da inversão do DDIM, o que compromete inerentemente a eficiência e a consistência alcançável das imagens editadas. Métodos recentes também utilizam orientação de energia que atualiza iterativamente o ruído previsto e pode afastar os latentes da imagem original, resultando em distorções. Neste artigo, propomos o PixelMan, um método sem inversão e sem treinamento para alcançar edição consistente de objetos via Manipulação e geração de pixels, onde criamos diretamente uma cópia duplicada do objeto de origem na localização de destino no espaço de pixels, e introduzimos uma abordagem de amostragem eficiente para harmonizar iterativamente o objeto manipulado na localização de destino e preencher a localização original, garantindo a consistência da imagem ancorando a imagem editada a ser gerada na imagem manipulada por pixels, além de introduzir várias técnicas de otimização preservadoras de consistência durante a inferência. Avaliações experimentais com base em conjuntos de dados de referência, bem como extensas comparações visuais, mostram que em apenas 16 etapas de inferência, o PixelMan supera uma variedade de métodos de treinamento baseados e sem treinamento de ponta (geralmente exigindo 50 etapas) em várias tarefas de edição consistente de objetos.
English
Recent research explores the potential of Diffusion Models (DMs) for
consistent object editing, which aims to modify object position, size, and
composition, etc., while preserving the consistency of objects and background
without changing their texture and attributes. Current inference-time methods
often rely on DDIM inversion, which inherently compromises efficiency and the
achievable consistency of edited images. Recent methods also utilize energy
guidance which iteratively updates the predicted noise and can drive the
latents away from the original image, resulting in distortions. In this paper,
we propose PixelMan, an inversion-free and training-free method for achieving
consistent object editing via Pixel Manipulation and generation, where we
directly create a duplicate copy of the source object at target location in the
pixel space, and introduce an efficient sampling approach to iteratively
harmonize the manipulated object into the target location and inpaint its
original location, while ensuring image consistency by anchoring the edited
image to be generated to the pixel-manipulated image as well as by introducing
various consistency-preserving optimization techniques during inference.
Experimental evaluations based on benchmark datasets as well as extensive
visual comparisons show that in as few as 16 inference steps, PixelMan
outperforms a range of state-of-the-art training-based and training-free
methods (usually requiring 50 steps) on multiple consistent object editing
tasks.Summary
AI-Generated Summary