OmniEdit: Costruzione di modelli generalisti di editing di immagini attraverso la supervisione di specialisti
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
November 11, 2024
Autori: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI
Abstract
I metodi di editing delle immagini guidati dalle istruzioni hanno dimostrato un significativo potenziale addestrando modelli di diffusione su coppie di editing di immagini sintetizzate automaticamente o annotate manualmente. Tuttavia, questi metodi rimangono lontani dalle applicazioni pratiche nella vita reale. Identifichiamo tre sfide principali che contribuiscono a questa discrepanza. In primo luogo, i modelli esistenti hanno abilità di editing limitate a causa del processo di sintesi distorto. In secondo lu luogo, questi metodi vengono addestrati con set di dati con un'elevata quantità di rumore e artefatti. Ciò è dovuto all'applicazione di semplici metodi di filtraggio come il punteggio CLIP. In terzo luogo, tutti questi set di dati sono limitati a una singola bassa risoluzione e a un rapporto d'aspetto fisso, limitando la versatilità nel gestire casi d'uso del mondo reale. In questo articolo, presentiamo \omniedit, che è un editor onnipotente per gestire sette diverse attività di editing delle immagini con qualsiasi rapporto d'aspetto in modo fluido. Il nostro contributo si articola in quattro punti: (1) \omniedit è addestrato utilizzando la supervisione di sette diversi modelli specialistici per garantire la copertura delle attività. (2) Utilizziamo il campionamento per importanza basato sui punteggi forniti da grandi modelli multimodali (come GPT-4o) anziché il punteggio CLIP per migliorare la qualità dei dati. (3) Proponiamo una nuova architettura di editing chiamata EditNet per aumentare notevolmente il tasso di successo dell'editing, (4) forniamo immagini con diversi rapporti d'aspetto per garantire che il nostro modello possa gestire qualsiasi immagine in natura. Abbiamo curato un set di test contenente immagini con diversi rapporti d'aspetto, accompagnate da istruzioni diverse per coprire varie attività. Sia le valutazioni automatiche che quelle umane dimostrano che \omniedit può superare significativamente tutti i modelli esistenti. Il nostro codice, set di dati e modello saranno disponibili su https://tiger-ai-lab.github.io/OmniEdit/
English
Instruction-guided image editing methods have demonstrated significant
potential by training diffusion models on automatically synthesized or manually
annotated image editing pairs. However, these methods remain far from
practical, real-life applications. We identify three primary challenges
contributing to this gap. Firstly, existing models have limited editing skills
due to the biased synthesis process. Secondly, these methods are trained with
datasets with a high volume of noise and artifacts. This is due to the
application of simple filtering methods like CLIP-score. Thirdly, all these
datasets are restricted to a single low resolution and fixed aspect ratio,
limiting the versatility to handle real-world use cases. In this paper, we
present \omniedit, which is an omnipotent editor to handle seven different
image editing tasks with any aspect ratio seamlessly. Our contribution is in
four folds: (1) \omniedit is trained by utilizing the supervision from seven
different specialist models to ensure task coverage. (2) we utilize importance
sampling based on the scores provided by large multimodal models (like GPT-4o)
instead of CLIP-score to improve the data quality. (3) we propose a new editing
architecture called EditNet to greatly boost the editing success rate, (4) we
provide images with different aspect ratios to ensure that our model can handle
any image in the wild. We have curated a test set containing images of
different aspect ratios, accompanied by diverse instructions to cover different
tasks. Both automatic evaluation and human evaluations demonstrate that
\omniedit can significantly outperform all the existing models. Our code,
dataset and model will be available at
https://tiger-ai-lab.github.io/OmniEdit/Summary
AI-Generated Summary