OmniEdit : Construction de modèles généralistes d'édition d'images grâce à une supervision spécialisée

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

November 11, 2024
Auteurs: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI

Résumé

Les méthodes d'édition d'images guidées par des instructions ont démontré un potentiel significatif en entraînant des modèles de diffusion sur des paires d'édition d'images synthétisées automatiquement ou annotées manuellement. Cependant, ces méthodes restent loin d'être pratiques pour des applications réelles. Nous identifions trois défis principaux contribuant à cet écart. Premièrement, les modèles existants ont des compétences d'édition limitées en raison du processus de synthèse biaisé. Deuxièmement, ces méthodes sont entraînées avec des ensembles de données contenant un volume élevé de bruit et d'artefacts. Cela est dû à l'application de méthodes de filtrage simples comme le score CLIP. Troisièmement, tous ces ensembles de données sont limités à une seule résolution basse et à un rapport d'aspect fixe, limitant la polyvalence pour traiter des cas d'utilisation du monde réel. Dans cet article, nous présentons \omniedit, qui est un éditeur omnipotent pour gérer sept tâches différentes d'édition d'images avec n'importe quel rapport d'aspect de manière transparente. Notre contribution se décline en quatre volets : (1) \omniedit est entraîné en utilisant la supervision de sept modèles spécialisés différents pour garantir la couverture des tâches. (2) nous utilisons l'échantillonnage d'importance basé sur les scores fournis par de grands modèles multimodaux (comme GPT-4o) au lieu du score CLIP pour améliorer la qualité des données. (3) nous proposons une nouvelle architecture d'édition appelée EditNet pour augmenter considérablement le taux de réussite de l'édition, (4) nous fournissons des images avec différents rapports d'aspect pour garantir que notre modèle peut gérer n'importe quelle image dans la nature. Nous avons constitué un ensemble de tests contenant des images de différents rapports d'aspect, accompagnées d'instructions diverses pour couvrir différentes tâches. Les évaluations automatiques et humaines démontrent que \omniedit peut surpasser de manière significative tous les modèles existants. Notre code, ensemble de données et modèle seront disponibles sur https://tiger-ai-lab.github.io/OmniEdit/
English
Instruction-guided image editing methods have demonstrated significant potential by training diffusion models on automatically synthesized or manually annotated image editing pairs. However, these methods remain far from practical, real-life applications. We identify three primary challenges contributing to this gap. Firstly, existing models have limited editing skills due to the biased synthesis process. Secondly, these methods are trained with datasets with a high volume of noise and artifacts. This is due to the application of simple filtering methods like CLIP-score. Thirdly, all these datasets are restricted to a single low resolution and fixed aspect ratio, limiting the versatility to handle real-world use cases. In this paper, we present \omniedit, which is an omnipotent editor to handle seven different image editing tasks with any aspect ratio seamlessly. Our contribution is in four folds: (1) \omniedit is trained by utilizing the supervision from seven different specialist models to ensure task coverage. (2) we utilize importance sampling based on the scores provided by large multimodal models (like GPT-4o) instead of CLIP-score to improve the data quality. (3) we propose a new editing architecture called EditNet to greatly boost the editing success rate, (4) we provide images with different aspect ratios to ensure that our model can handle any image in the wild. We have curated a test set containing images of different aspect ratios, accompanied by diverse instructions to cover different tasks. Both automatic evaluation and human evaluations demonstrate that \omniedit can significantly outperform all the existing models. Our code, dataset and model will be available at https://tiger-ai-lab.github.io/OmniEdit/

Summary

AI-Generated Summary

PDF435November 12, 2024