OmniEdit : Construction de modèles généralistes d'édition d'images grâce à une supervision spécialisée
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
November 11, 2024
Auteurs: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI
Résumé
Les méthodes d'édition d'images guidées par des instructions ont démontré un potentiel significatif en entraînant des modèles de diffusion sur des paires d'édition d'images synthétisées automatiquement ou annotées manuellement. Cependant, ces méthodes restent loin d'être pratiques pour des applications réelles. Nous identifions trois défis principaux contribuant à cet écart. Premièrement, les modèles existants ont des compétences d'édition limitées en raison du processus de synthèse biaisé. Deuxièmement, ces méthodes sont entraînées avec des ensembles de données contenant un volume élevé de bruit et d'artefacts. Cela est dû à l'application de méthodes de filtrage simples comme le score CLIP. Troisièmement, tous ces ensembles de données sont limités à une seule résolution basse et à un rapport d'aspect fixe, limitant la polyvalence pour traiter des cas d'utilisation du monde réel. Dans cet article, nous présentons \omniedit, qui est un éditeur omnipotent pour gérer sept tâches différentes d'édition d'images avec n'importe quel rapport d'aspect de manière transparente. Notre contribution se décline en quatre volets : (1) \omniedit est entraîné en utilisant la supervision de sept modèles spécialisés différents pour garantir la couverture des tâches. (2) nous utilisons l'échantillonnage d'importance basé sur les scores fournis par de grands modèles multimodaux (comme GPT-4o) au lieu du score CLIP pour améliorer la qualité des données. (3) nous proposons une nouvelle architecture d'édition appelée EditNet pour augmenter considérablement le taux de réussite de l'édition, (4) nous fournissons des images avec différents rapports d'aspect pour garantir que notre modèle peut gérer n'importe quelle image dans la nature. Nous avons constitué un ensemble de tests contenant des images de différents rapports d'aspect, accompagnées d'instructions diverses pour couvrir différentes tâches. Les évaluations automatiques et humaines démontrent que \omniedit peut surpasser de manière significative tous les modèles existants. Notre code, ensemble de données et modèle seront disponibles sur https://tiger-ai-lab.github.io/OmniEdit/
English
Instruction-guided image editing methods have demonstrated significant
potential by training diffusion models on automatically synthesized or manually
annotated image editing pairs. However, these methods remain far from
practical, real-life applications. We identify three primary challenges
contributing to this gap. Firstly, existing models have limited editing skills
due to the biased synthesis process. Secondly, these methods are trained with
datasets with a high volume of noise and artifacts. This is due to the
application of simple filtering methods like CLIP-score. Thirdly, all these
datasets are restricted to a single low resolution and fixed aspect ratio,
limiting the versatility to handle real-world use cases. In this paper, we
present \omniedit, which is an omnipotent editor to handle seven different
image editing tasks with any aspect ratio seamlessly. Our contribution is in
four folds: (1) \omniedit is trained by utilizing the supervision from seven
different specialist models to ensure task coverage. (2) we utilize importance
sampling based on the scores provided by large multimodal models (like GPT-4o)
instead of CLIP-score to improve the data quality. (3) we propose a new editing
architecture called EditNet to greatly boost the editing success rate, (4) we
provide images with different aspect ratios to ensure that our model can handle
any image in the wild. We have curated a test set containing images of
different aspect ratios, accompanied by diverse instructions to cover different
tasks. Both automatic evaluation and human evaluations demonstrate that
\omniedit can significantly outperform all the existing models. Our code,
dataset and model will be available at
https://tiger-ai-lab.github.io/OmniEdit/Summary
AI-Generated Summary