Step1X-Edit: 汎用画像編集のための実用的フレームワーク
Step1X-Edit: A Practical Framework for General Image Editing
April 24, 2025
著者: Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
cs.AI
要旨
近年、画像編集モデルは目覚ましい発展を遂げています。GPT-4oやGemini2 Flashといった最先端のマルチモーダルモデルの登場により、非常に有望な画像編集機能が導入されました。これらのモデルは、ユーザー主導の編集要求の大部分を満たす驚くべき能力を示しており、画像操作の分野において重要な進展を遂げています。しかし、オープンソースのアルゴリズムとこれらのクローズドソースモデルとの間には依然として大きな隔たりがあります。そこで本論文では、GPT-4oやGemini2 Flashのようなクローズドソースモデルに匹敵する性能を提供する、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースすることを目指します。具体的には、マルチモーダルLLMを採用して参照画像とユーザーの編集指示を処理し、潜在埋め込みを抽出して拡散画像デコーダと統合することで、ターゲット画像を取得します。モデルのトレーニングのために、高品質なデータセットを生成するデータ生成パイプラインを構築しました。評価には、実世界のユーザー指示に基づいた新しいベンチマークであるGEdit-Benchを開発しました。GEdit-Benchでの実験結果は、Step1X-Editが既存のオープンソースベースラインを大幅に上回り、主要なプロプライエタリモデルの性能に迫ることを示しており、画像編集分野に大きな貢献を果たしています。
English
In recent years, image editing models have witnessed remarkable and rapid
development. The recent unveiling of cutting-edge multimodal models such as
GPT-4o and Gemini2 Flash has introduced highly promising image editing
capabilities. These models demonstrate an impressive aptitude for fulfilling a
vast majority of user-driven editing requirements, marking a significant
advancement in the field of image manipulation. However, there is still a large
gap between the open-source algorithm with these closed-source models. Thus, in
this paper, we aim to release a state-of-the-art image editing model, called
Step1X-Edit, which can provide comparable performance against the closed-source
models like GPT-4o and Gemini2 Flash. More specifically, we adopt the
Multimodal LLM to process the reference image and the user's editing
instruction. A latent embedding has been extracted and integrated with a
diffusion image decoder to obtain the target image. To train the model, we
build a data generation pipeline to produce a high-quality dataset. For
evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world
user instructions. Experimental results on GEdit-Bench demonstrate that
Step1X-Edit outperforms existing open-source baselines by a substantial margin
and approaches the performance of leading proprietary models, thereby making
significant contributions to the field of image editing.Summary
AI-Generated Summary