Step1X-Edit: Een Praktisch Framework voor Algemene Afbeeldingsbewerking
Step1X-Edit: A Practical Framework for General Image Editing
April 24, 2025
Auteurs: Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
cs.AI
Samenvatting
De afgelopen jaren hebben beeldbewerkingsmodellen een opmerkelijke en snelle ontwikkeling doorgemaakt. De recente onthulling van geavanceerde multimodale modellen zoals GPT-4o en Gemini2 Flash heeft veelbelovende beeldbewerkingsmogelijkheden geïntroduceerd. Deze modellen tonen een indrukwekkend vermogen om aan de meeste gebruikersgestuurde bewerkingsbehoeften te voldoen, wat een significante vooruitgang betekent op het gebied van beeldmanipulatie. Er bestaat echter nog steeds een grote kloof tussen open-source algoritmen en deze gesloten modellen. Daarom streven we in dit artikel ernaar om een state-of-the-art beeldbewerkingsmodel, genaamd Step1X-Edit, uit te brengen, dat vergelijkbare prestaties kan leveren met gesloten modellen zoals GPT-4o en Gemini2 Flash. Meer specifiek gebruiken we een Multimodal LLM om het referentiebeeld en de bewerkingsinstructie van de gebruiker te verwerken. Een latente embedding wordt geëxtraheerd en geïntegreerd met een diffusiebeelddecoder om het doelbeeld te verkrijgen. Om het model te trainen, hebben we een datageneratiepijplijn ontwikkeld om een hoogwaardige dataset te produceren. Voor evaluatie hebben we de GEdit-Bench ontwikkeld, een nieuwe benchmark die is geworteld in real-world gebruikersinstructies. Experimentele resultaten op de GEdit-Bench laten zien dat Step1X-Edit de bestaande open-source baselines met een aanzienlijke marge overtreft en de prestaties van toonaangevende propriëtaire modellen benadert, waardoor het een belangrijke bijdrage levert aan het veld van beeldbewerking.
English
In recent years, image editing models have witnessed remarkable and rapid
development. The recent unveiling of cutting-edge multimodal models such as
GPT-4o and Gemini2 Flash has introduced highly promising image editing
capabilities. These models demonstrate an impressive aptitude for fulfilling a
vast majority of user-driven editing requirements, marking a significant
advancement in the field of image manipulation. However, there is still a large
gap between the open-source algorithm with these closed-source models. Thus, in
this paper, we aim to release a state-of-the-art image editing model, called
Step1X-Edit, which can provide comparable performance against the closed-source
models like GPT-4o and Gemini2 Flash. More specifically, we adopt the
Multimodal LLM to process the reference image and the user's editing
instruction. A latent embedding has been extracted and integrated with a
diffusion image decoder to obtain the target image. To train the model, we
build a data generation pipeline to produce a high-quality dataset. For
evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world
user instructions. Experimental results on GEdit-Bench demonstrate that
Step1X-Edit outperforms existing open-source baselines by a substantial margin
and approaches the performance of leading proprietary models, thereby making
significant contributions to the field of image editing.Summary
AI-Generated Summary