OmniEdit: Aufbau von Bildbearbeitungs-Allrounder-Modellen durch spezialisierte Überwachung

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

November 11, 2024
Autoren: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI

Zusammenfassung

Anleitungsgesteuerte Bildbearbeitungsmethoden haben ein signifikantes Potenzial gezeigt, indem Diffusionsmodelle auf automatisch synthetisierten oder manuell annotierten Bildbearbeitungspaaren trainiert wurden. Allerdings bleiben diese Methoden weit von praktischen Anwendungen im wirklichen Leben entfernt. Wir identifizieren drei Hauptprobleme, die zu dieser Kluft beitragen. Erstens haben bestehende Modelle aufgrund des voreingenommenen Syntheseprozesses begrenzte Bearbeitungsfähigkeiten. Zweitens werden diese Methoden mit Datensätzen trainiert, die ein hohes Maß an Rauschen und Artefakten aufweisen. Dies ist auf die Anwendung einfacher Filtermethoden wie CLIP-Score zurückzuführen. Drittens sind all diese Datensätze auf eine einzige niedrige Auflösung und ein festes Seitenverhältnis beschränkt, was die Vielseitigkeit zur Bewältigung von Anwendungsfällen im wirklichen Leben einschränkt. In diesem Artikel präsentieren wir \omniedit, das ein allmächtiger Editor ist, um sieben verschiedene Bildbearbeitungsaufgaben nahtlos mit jedem Seitenverhältnis zu bewältigen. Unser Beitrag besteht aus vier Teilen: (1) \omniedit wird trainiert, indem die Aufsicht von sieben verschiedenen Spezialistenmodellen genutzt wird, um die Abdeckung der Aufgaben zu gewährleisten. (2) Wir nutzen eine Importance-Sampling basierend auf den Scores großer multimodaler Modelle (wie GPT-4o) anstelle des CLIP-Scores, um die Datenqualität zu verbessern. (3) Wir schlagen eine neue Bearbeitungsarchitektur namens EditNet vor, um die Bearbeitungserfolgsrate erheblich zu steigern. (4) Wir stellen Bilder mit verschiedenen Seitenverhältnissen bereit, um sicherzustellen, dass unser Modell jedes Bild in freier Wildbahn verarbeiten kann. Wir haben einen Testdatensatz zusammengestellt, der Bilder mit verschiedenen Seitenverhältnissen enthält, begleitet von vielfältigen Anweisungen, um verschiedene Aufgaben abzudecken. Sowohl automatische Bewertungen als auch menschliche Bewertungen zeigen, dass \omniedit signifikant besser abschneiden kann als alle bestehenden Modelle. Unser Code, Datensatz und Modell werden unter https://tiger-ai-lab.github.io/OmniEdit/ verfügbar sein.
English
Instruction-guided image editing methods have demonstrated significant potential by training diffusion models on automatically synthesized or manually annotated image editing pairs. However, these methods remain far from practical, real-life applications. We identify three primary challenges contributing to this gap. Firstly, existing models have limited editing skills due to the biased synthesis process. Secondly, these methods are trained with datasets with a high volume of noise and artifacts. This is due to the application of simple filtering methods like CLIP-score. Thirdly, all these datasets are restricted to a single low resolution and fixed aspect ratio, limiting the versatility to handle real-world use cases. In this paper, we present \omniedit, which is an omnipotent editor to handle seven different image editing tasks with any aspect ratio seamlessly. Our contribution is in four folds: (1) \omniedit is trained by utilizing the supervision from seven different specialist models to ensure task coverage. (2) we utilize importance sampling based on the scores provided by large multimodal models (like GPT-4o) instead of CLIP-score to improve the data quality. (3) we propose a new editing architecture called EditNet to greatly boost the editing success rate, (4) we provide images with different aspect ratios to ensure that our model can handle any image in the wild. We have curated a test set containing images of different aspect ratios, accompanied by diverse instructions to cover different tasks. Both automatic evaluation and human evaluations demonstrate that \omniedit can significantly outperform all the existing models. Our code, dataset and model will be available at https://tiger-ai-lab.github.io/OmniEdit/

Summary

AI-Generated Summary

PDF435November 12, 2024