OmniEdit: Het opbouwen van algemene beeldbewerkingsmodellen via specialistische supervisie.
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
November 11, 2024
Auteurs: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI
Samenvatting
Instructiegestuurde methoden voor beeldbewerking hebben aanzienlijk potentieel aangetoond door diffusiemodellen te trainen op automatisch gesynthetiseerde of handmatig geannoteerde beeldbewerkingsparen. Deze methoden blijven echter ver verwijderd van praktische, real-life toepassingen. We identificeren drie belangrijke uitdagingen die bijdragen aan deze kloof. Ten eerste hebben bestaande modellen beperkte bewerkingsvaardigheden als gevolg van het bevooroordeelde synthese proces. Ten tweede worden deze methoden getraind met datasets met een hoog volume aan ruis en artefacten. Dit komt door het gebruik van eenvoudige filtermethoden zoals CLIP-score. Ten derde zijn al deze datasets beperkt tot een enkele lage resolutie en vast aspect ratio, wat de veelzijdigheid beperkt om real-world use cases aan te pakken. In dit artikel presenteren we \omniedit, dat een alomtegenwoordige editor is om zeven verschillende beeldbewerkingstaken naadloos aan te pakken. Onze bijdrage bestaat uit vier aspecten: (1) \omniedit wordt getraind door toezicht te gebruiken van zeven verschillende specialistische modellen om taakdekking te garanderen. (2) we maken gebruik van importance sampling gebaseerd op de scores die worden geleverd door grote multimodale modellen (zoals GPT-4o) in plaats van CLIP-score om de kwaliteit van de gegevens te verbeteren. (3) we stellen een nieuwe bewerkingsarchitectuur voor genaamd EditNet om het succespercentage van de bewerking aanzienlijk te verhogen, (4) we leveren afbeeldingen met verschillende aspect ratio's om ervoor te zorgen dat ons model elk willekeurig beeld kan verwerken. We hebben een testset samengesteld met afbeeldingen van verschillende aspect ratio's, vergezeld van diverse instructies om verschillende taken te bestrijken. Zowel automatische evaluaties als menselijke evaluaties tonen aan dat \omniedit aanzienlijk beter presteert dan alle bestaande modellen. Onze code, dataset en model zullen beschikbaar zijn op https://tiger-ai-lab.github.io/OmniEdit/
English
Instruction-guided image editing methods have demonstrated significant
potential by training diffusion models on automatically synthesized or manually
annotated image editing pairs. However, these methods remain far from
practical, real-life applications. We identify three primary challenges
contributing to this gap. Firstly, existing models have limited editing skills
due to the biased synthesis process. Secondly, these methods are trained with
datasets with a high volume of noise and artifacts. This is due to the
application of simple filtering methods like CLIP-score. Thirdly, all these
datasets are restricted to a single low resolution and fixed aspect ratio,
limiting the versatility to handle real-world use cases. In this paper, we
present \omniedit, which is an omnipotent editor to handle seven different
image editing tasks with any aspect ratio seamlessly. Our contribution is in
four folds: (1) \omniedit is trained by utilizing the supervision from seven
different specialist models to ensure task coverage. (2) we utilize importance
sampling based on the scores provided by large multimodal models (like GPT-4o)
instead of CLIP-score to improve the data quality. (3) we propose a new editing
architecture called EditNet to greatly boost the editing success rate, (4) we
provide images with different aspect ratios to ensure that our model can handle
any image in the wild. We have curated a test set containing images of
different aspect ratios, accompanied by diverse instructions to cover different
tasks. Both automatic evaluation and human evaluations demonstrate that
\omniedit can significantly outperform all the existing models. Our code,
dataset and model will be available at
https://tiger-ai-lab.github.io/OmniEdit/Summary
AI-Generated Summary