OmniEdit: 전문가 감독을 통해 이미지 편집 종합 모델 구축
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
November 11, 2024
저자: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI
초록
지시에 따른 이미지 편집 방법은 자동으로 합성하거나 수동으로 주석을 달아 이미지 편집 쌍을 만들어 확산 모델을 훈련시킴으로써 상당한 잠재력을 보여주었습니다. 그러나 이러한 방법들은 실용적인 실제 응용에서는 아직 멀리 떨어져 있습니다. 우리는 이 차이에 기여하는 세 가지 주요 도전 과제를 확인합니다. 첫째, 기존 모델들은 편향된 합성 과정으로 인해 편집 기술이 제한되어 있습니다. 둘째, 이러한 방법들은 높은 수준의 잡음과 아티팩트가 포함된 데이터셋으로 훈련되어 있습니다. 이는 CLIP-score와 같은 간단한 필터링 방법의 적용으로 인한 것입니다. 셋째, 이러한 데이터셋은 모두 단일 낮은 해상도와 고정된 종횡비로 제한되어 있어 실제 사용 사례를 처리하는 다재다능성이 제한됩니다. 본 논문에서 우리는 어떤 종횡비에도 매끄럽게 7가지 다른 이미지 편집 작업을 처리하는 만능 편집기인 \omniedit을 제시합니다. 우리의 기여는 네 가지로 나뉩니다: (1) \omniedit은 작업 범위를 보장하기 위해 7가지 다른 전문가 모델로부터 감독을 활용하여 훈련됩니다. (2) 우리는 데이터 품질을 향상시키기 위해 CLIP-score 대신 GPT-4o와 같은 대규모 다중 모달 모델이 제공하는 점수에 기반한 중요도 샘플링을 활용합니다. (3) 우리는 편집 성공률을 크게 향상시키기 위해 EditNet이라는 새로운 편집 아키텍처를 제안합니다. (4) 우리는 우리의 모델이 야생의 어떤 이미지든 처리할 수 있도록 다양한 종횡비의 이미지를 제공합니다. 우리는 다양한 작업을 수행하기 위해 다양한 지침이 포함된 다양한 종횡비의 이미지를 포함하는 테스트 세트를 선별했습니다. 자동 평가와 인간 평가 모두 \omniedit이 모든 기존 모델들을 크게 능가할 수 있다는 것을 입증합니다. 우리의 코드, 데이터셋 및 모델은 https://tiger-ai-lab.github.io/OmniEdit/에서 제공될 예정입니다.
English
Instruction-guided image editing methods have demonstrated significant
potential by training diffusion models on automatically synthesized or manually
annotated image editing pairs. However, these methods remain far from
practical, real-life applications. We identify three primary challenges
contributing to this gap. Firstly, existing models have limited editing skills
due to the biased synthesis process. Secondly, these methods are trained with
datasets with a high volume of noise and artifacts. This is due to the
application of simple filtering methods like CLIP-score. Thirdly, all these
datasets are restricted to a single low resolution and fixed aspect ratio,
limiting the versatility to handle real-world use cases. In this paper, we
present \omniedit, which is an omnipotent editor to handle seven different
image editing tasks with any aspect ratio seamlessly. Our contribution is in
four folds: (1) \omniedit is trained by utilizing the supervision from seven
different specialist models to ensure task coverage. (2) we utilize importance
sampling based on the scores provided by large multimodal models (like GPT-4o)
instead of CLIP-score to improve the data quality. (3) we propose a new editing
architecture called EditNet to greatly boost the editing success rate, (4) we
provide images with different aspect ratios to ensure that our model can handle
any image in the wild. We have curated a test set containing images of
different aspect ratios, accompanied by diverse instructions to cover different
tasks. Both automatic evaluation and human evaluations demonstrate that
\omniedit can significantly outperform all the existing models. Our code,
dataset and model will be available at
https://tiger-ai-lab.github.io/OmniEdit/Summary
AI-Generated Summary