OmniEdit: Aufbau von Bildbearbeitungs-Allrounder-Modellen durch spezialisierte Überwachung
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
November 11, 2024
Autoren: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI
Zusammenfassung
Anleitungsgesteuerte Bildbearbeitungsmethoden haben ein signifikantes Potenzial gezeigt, indem Diffusionsmodelle auf automatisch synthetisierten oder manuell annotierten Bildbearbeitungspaaren trainiert wurden. Allerdings bleiben diese Methoden weit von praktischen Anwendungen im wirklichen Leben entfernt. Wir identifizieren drei Hauptprobleme, die zu dieser Kluft beitragen. Erstens haben bestehende Modelle aufgrund des voreingenommenen Syntheseprozesses begrenzte Bearbeitungsfähigkeiten. Zweitens werden diese Methoden mit Datensätzen trainiert, die ein hohes Maß an Rauschen und Artefakten aufweisen. Dies ist auf die Anwendung einfacher Filtermethoden wie CLIP-Score zurückzuführen. Drittens sind all diese Datensätze auf eine einzige niedrige Auflösung und ein festes Seitenverhältnis beschränkt, was die Vielseitigkeit zur Bewältigung von Anwendungsfällen im wirklichen Leben einschränkt. In diesem Artikel präsentieren wir \omniedit, das ein allmächtiger Editor ist, um sieben verschiedene Bildbearbeitungsaufgaben nahtlos mit jedem Seitenverhältnis zu bewältigen. Unser Beitrag besteht aus vier Teilen: (1) \omniedit wird trainiert, indem die Aufsicht von sieben verschiedenen Spezialistenmodellen genutzt wird, um die Abdeckung der Aufgaben zu gewährleisten. (2) Wir nutzen eine Importance-Sampling basierend auf den Scores großer multimodaler Modelle (wie GPT-4o) anstelle des CLIP-Scores, um die Datenqualität zu verbessern. (3) Wir schlagen eine neue Bearbeitungsarchitektur namens EditNet vor, um die Bearbeitungserfolgsrate erheblich zu steigern. (4) Wir stellen Bilder mit verschiedenen Seitenverhältnissen bereit, um sicherzustellen, dass unser Modell jedes Bild in freier Wildbahn verarbeiten kann. Wir haben einen Testdatensatz zusammengestellt, der Bilder mit verschiedenen Seitenverhältnissen enthält, begleitet von vielfältigen Anweisungen, um verschiedene Aufgaben abzudecken. Sowohl automatische Bewertungen als auch menschliche Bewertungen zeigen, dass \omniedit signifikant besser abschneiden kann als alle bestehenden Modelle. Unser Code, Datensatz und Modell werden unter https://tiger-ai-lab.github.io/OmniEdit/ verfügbar sein.
English
Instruction-guided image editing methods have demonstrated significant
potential by training diffusion models on automatically synthesized or manually
annotated image editing pairs. However, these methods remain far from
practical, real-life applications. We identify three primary challenges
contributing to this gap. Firstly, existing models have limited editing skills
due to the biased synthesis process. Secondly, these methods are trained with
datasets with a high volume of noise and artifacts. This is due to the
application of simple filtering methods like CLIP-score. Thirdly, all these
datasets are restricted to a single low resolution and fixed aspect ratio,
limiting the versatility to handle real-world use cases. In this paper, we
present \omniedit, which is an omnipotent editor to handle seven different
image editing tasks with any aspect ratio seamlessly. Our contribution is in
four folds: (1) \omniedit is trained by utilizing the supervision from seven
different specialist models to ensure task coverage. (2) we utilize importance
sampling based on the scores provided by large multimodal models (like GPT-4o)
instead of CLIP-score to improve the data quality. (3) we propose a new editing
architecture called EditNet to greatly boost the editing success rate, (4) we
provide images with different aspect ratios to ensure that our model can handle
any image in the wild. We have curated a test set containing images of
different aspect ratios, accompanied by diverse instructions to cover different
tasks. Both automatic evaluation and human evaluations demonstrate that
\omniedit can significantly outperform all the existing models. Our code,
dataset and model will be available at
https://tiger-ai-lab.github.io/OmniEdit/Summary
AI-Generated Summary