BrushEdit: Inpainting e Modifica Immagini All-In-One
BrushEdit: All-In-One Image Inpainting and Editing
December 13, 2024
Autori: Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu
cs.AI
Abstract
L'editing delle immagini ha fatto passi da gigante con lo sviluppo dei modelli di diffusione che utilizzano sia metodi basati sull'inversione che basati sull'istruzione. Tuttavia, gli attuali approcci basati sull'inversione faticano con modifiche significative (ad esempio, aggiunta o rimozione di oggetti) a causa della natura strutturata del rumore di inversione, che ostacola cambiamenti sostanziali. Nel frattempo, i metodi basati sull'istruzione spesso vincolano gli utenti a operazioni a scatola chiusa, limitando l'interazione diretta per specificare regioni di editing e intensità. Per affrontare queste limitazioni, proponiamo BrushEdit, un nuovo paradigma di editing delle immagini guidato da istruzioni basato sull'inpainting, che sfrutta i modelli linguistici multimodali di grandi dimensioni (MLLMs) e i modelli di inpainting per abilitare un editing autonomo, user-friendly e interattivo guidato da istruzioni in forma libera. In particolare, progettiamo un sistema che consente l'editing guidato da istruzioni in forma libera integrando MLLMs e un modello di inpainting a doppio ramo in un framework cooperativo di agenti per eseguire la classificazione delle categorie di editing, l'identificazione degli oggetti principali, l'acquisizione della maschera e l'inpainting dell'area di editing. Estesi esperimenti mostrano che il nostro framework combina efficacemente MLLMs e modelli di inpainting, ottenendo prestazioni superiori su sette metriche, inclusa la conservazione della regione della maschera e la coerenza dell'effetto di editing.
English
Image editing has advanced significantly with the development of diffusion
models using both inversion-based and instruction-based methods. However,
current inversion-based approaches struggle with big modifications (e.g.,
adding or removing objects) due to the structured nature of inversion noise,
which hinders substantial changes. Meanwhile, instruction-based methods often
constrain users to black-box operations, limiting direct interaction for
specifying editing regions and intensity. To address these limitations, we
propose BrushEdit, a novel inpainting-based instruction-guided image editing
paradigm, which leverages multimodal large language models (MLLMs) and image
inpainting models to enable autonomous, user-friendly, and interactive
free-form instruction editing. Specifically, we devise a system enabling
free-form instruction editing by integrating MLLMs and a dual-branch image
inpainting model in an agent-cooperative framework to perform editing category
classification, main object identification, mask acquisition, and editing area
inpainting. Extensive experiments show that our framework effectively combines
MLLMs and inpainting models, achieving superior performance across seven
metrics including mask region preservation and editing effect coherence.Summary
AI-Generated Summary