OmniEdit: Costruzione di modelli generalisti di editing di immagini attraverso la supervisione di specialisti

Abstract

I metodi di editing delle immagini guidati dalle istruzioni hanno dimostrato un significativo potenziale addestrando modelli di diffusione su coppie di editing di immagini sintetizzate automaticamente o annotate manualmente. Tuttavia, questi metodi rimangono lontani dalle applicazioni pratiche nella vita reale. Identifichiamo tre sfide principali che contribuiscono a questa discrepanza. In primo luogo, i modelli esistenti hanno abilità di editing limitate a causa del processo di sintesi distorto. In secondo lu luogo, questi metodi vengono addestrati con set di dati con un'elevata quantità di rumore e artefatti. Ciò è dovuto all'applicazione di semplici metodi di filtraggio come il punteggio CLIP. In terzo luogo, tutti questi set di dati sono limitati a una singola bassa risoluzione e a un rapporto d'aspetto fisso, limitando la versatilità nel gestire casi d'uso del mondo reale. In questo articolo, presentiamo \omniedit, che è un editor onnipotente per gestire sette diverse attività di editing delle immagini con qualsiasi rapporto d'aspetto in modo fluido. Il nostro contributo si articola in quattro punti: (1) \omniedit è addestrato utilizzando la supervisione di sette diversi modelli specialistici per garantire la copertura delle attività. (2) Utilizziamo il campionamento per importanza basato sui punteggi forniti da grandi modelli multimodali (come GPT-4o) anziché il punteggio CLIP per migliorare la qualità dei dati. (3) Proponiamo una nuova architettura di editing chiamata EditNet per aumentare notevolmente il tasso di successo dell'editing, (4) forniamo immagini con diversi rapporti d'aspetto per garantire che il nostro modello possa gestire qualsiasi immagine in natura. Abbiamo curato un set di test contenente immagini con diversi rapporti d'aspetto, accompagnate da istruzioni diverse per coprire varie attività. Sia le valutazioni automatiche che quelle umane dimostrano che \omniedit può superare significativamente tutti i modelli esistenti. Il nostro codice, set di dati e modello saranno disponibili su https://tiger-ai-lab.github.io/OmniEdit/

English

Instruction-guided image editing methods have demonstrated significant potential by training diffusion models on automatically synthesized or manually annotated image editing pairs. However, these methods remain far from practical, real-life applications. We identify three primary challenges contributing to this gap. Firstly, existing models have limited editing skills due to the biased synthesis process. Secondly, these methods are trained with datasets with a high volume of noise and artifacts. This is due to the application of simple filtering methods like CLIP-score. Thirdly, all these datasets are restricted to a single low resolution and fixed aspect ratio, limiting the versatility to handle real-world use cases. In this paper, we present \omniedit, which is an omnipotent editor to handle seven different image editing tasks with any aspect ratio seamlessly. Our contribution is in four folds: (1) \omniedit is trained by utilizing the supervision from seven different specialist models to ensure task coverage. (2) we utilize importance sampling based on the scores provided by large multimodal models (like GPT-4o) instead of CLIP-score to improve the data quality. (3) we propose a new editing architecture called EditNet to greatly boost the editing success rate, (4) we provide images with different aspect ratios to ensure that our model can handle any image in the wild. We have curated a test set containing images of different aspect ratios, accompanied by diverse instructions to cover different tasks. Both automatic evaluation and human evaluations demonstrate that \omniedit can significantly outperform all the existing models. Our code, dataset and model will be available at https://tiger-ai-lab.github.io/OmniEdit/

OmniEdit: Costruzione di modelli generalisti di editing di immagini attraverso la supervisione di specialisti

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

Abstract

Support