Step1X-Edit : Un cadre pratique pour l'édition d'images généralisée
Step1X-Edit: A Practical Framework for General Image Editing
April 24, 2025
Auteurs: Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
cs.AI
Résumé
Ces dernières années, les modèles d'édition d'images ont connu un développement remarquable et rapide. Le récent dévoilement de modèles multimodaux de pointe tels que GPT-4o et Gemini2 Flash a introduit des capacités d'édition d'images très prometteuses. Ces modèles démontrent une aptitude impressionnante à répondre à la grande majorité des besoins d'édition pilotés par les utilisateurs, marquant ainsi une avancée significative dans le domaine de la manipulation d'images. Cependant, il existe encore un écart important entre les algorithmes open-source et ces modèles propriétaires. Ainsi, dans cet article, nous visons à publier un modèle d'édition d'images de pointe, appelé Step1X-Edit, qui peut offrir des performances comparables à celles des modèles propriétaires comme GPT-4o et Gemini2 Flash. Plus précisément, nous adoptons un LLM multimodal pour traiter l'image de référence et les instructions d'édition de l'utilisateur. Un embedding latent est extrait et intégré à un décodeur d'image par diffusion pour obtenir l'image cible. Pour entraîner le modèle, nous avons construit un pipeline de génération de données afin de produire un ensemble de données de haute qualité. Pour l'évaluation, nous avons développé GEdit-Bench, un nouveau benchmark basé sur des instructions utilisateurs du monde réel. Les résultats expérimentaux sur GEdit-Bench montrent que Step1X-Edit surpasse les modèles open-source existants par une marge substantielle et s'approche des performances des modèles propriétaires leaders, contribuant ainsi de manière significative au domaine de l'édition d'images.
English
In recent years, image editing models have witnessed remarkable and rapid
development. The recent unveiling of cutting-edge multimodal models such as
GPT-4o and Gemini2 Flash has introduced highly promising image editing
capabilities. These models demonstrate an impressive aptitude for fulfilling a
vast majority of user-driven editing requirements, marking a significant
advancement in the field of image manipulation. However, there is still a large
gap between the open-source algorithm with these closed-source models. Thus, in
this paper, we aim to release a state-of-the-art image editing model, called
Step1X-Edit, which can provide comparable performance against the closed-source
models like GPT-4o and Gemini2 Flash. More specifically, we adopt the
Multimodal LLM to process the reference image and the user's editing
instruction. A latent embedding has been extracted and integrated with a
diffusion image decoder to obtain the target image. To train the model, we
build a data generation pipeline to produce a high-quality dataset. For
evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world
user instructions. Experimental results on GEdit-Bench demonstrate that
Step1X-Edit outperforms existing open-source baselines by a substantial margin
and approaches the performance of leading proprietary models, thereby making
significant contributions to the field of image editing.Summary
AI-Generated Summary