ChatPaper.aiChatPaper

Concept Lancet: Modifica delle Immagini con Rappresentazione Composizionale Trapianto

Concept Lancet: Image Editing with Compositional Representation Transplant

April 3, 2025
Autori: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal
cs.AI

Abstract

I modelli di diffusione sono ampiamente utilizzati per compiti di editing di immagini. I metodi di editing esistenti spesso progettano una procedura di manipolazione della rappresentazione curando una direzione di modifica nello spazio di embedding testuale o nello spazio dei punteggi. Tuttavia, tale procedura affronta una sfida chiave: sovrastimare la forza della modifica compromette la coerenza visiva, mentre sottostimarla fallisce nel compito di editing. È importante notare che ogni immagine sorgente può richiedere una diversa forza di editing, ed è costoso cercare una forza appropriata attraverso tentativi ed errori. Per affrontare questa sfida, proponiamo Concept Lancet (CoLan), un framework plug-and-play zero-shot per la manipolazione della rappresentazione basata su principi nell'editing di immagini basato su diffusione. Al momento dell'inferenza, scomponiamo l'input sorgente nello spazio latente (embedding testuale o punteggio di diffusione) come una combinazione lineare sparsa delle rappresentazioni dei concetti visivi raccolti. Questo ci permette di stimare accuratamente la presenza di concetti in ciascuna immagine, informando così la modifica. In base al compito di editing (sostituire/aggiungere/rimuovere), eseguiamo un processo personalizzato di trapianto di concetti per imporre la corrispondente direzione di modifica. Per modellare sufficientemente lo spazio dei concetti, curiamo un dataset di rappresentazione concettuale, CoLan-150K, che contiene descrizioni e scenari diversificati di termini e frasi visivi per il dizionario latente. Esperimenti su molteplici baseline di editing di immagini basate su diffusione mostrano che i metodi equipaggiati con CoLan raggiungono prestazioni all'avanguardia in termini di efficacia di editing e preservazione della coerenza.
English
Diffusion models are widely used for image editing tasks. Existing editing methods often design a representation manipulation procedure by curating an edit direction in the text embedding or score space. However, such a procedure faces a key challenge: overestimating the edit strength harms visual consistency while underestimating it fails the editing task. Notably, each source image may require a different editing strength, and it is costly to search for an appropriate strength via trial-and-error. To address this challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play framework for principled representation manipulation in diffusion-based image editing. At inference time, we decompose the source input in the latent (text embedding or diffusion score) space as a sparse linear combination of the representations of the collected visual concepts. This allows us to accurately estimate the presence of concepts in each image, which informs the edit. Based on the editing task (replace/add/remove), we perform a customized concept transplant process to impose the corresponding editing direction. To sufficiently model the concept space, we curate a conceptual representation dataset, CoLan-150K, which contains diverse descriptions and scenarios of visual terms and phrases for the latent dictionary. Experiments on multiple diffusion-based image editing baselines show that methods equipped with CoLan achieve state-of-the-art performance in editing effectiveness and consistency preservation.

Summary

AI-Generated Summary

PDF163April 8, 2025