ChatPaper.aiChatPaper

Step1X-Edit: Ein praktisches Framework für allgemeine Bildbearbeitung

Step1X-Edit: A Practical Framework for General Image Editing

April 24, 2025
Autoren: Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
cs.AI

Zusammenfassung

In den letzten Jahren haben Bildbearbeitungsmodelle eine bemerkenswerte und rasante Entwicklung erfahren. Die jüngste Vorstellung von wegweisenden multimodalen Modellen wie GPT-4o und Gemini2 Flash hat vielversprechende Bildbearbeitungsfähigkeiten eingeführt. Diese Modelle zeigen eine beeindruckende Fähigkeit, die überwiegende Mehrheit der benutzergetriebenen Bearbeitungsanforderungen zu erfüllen, was einen bedeutenden Fortschritt im Bereich der Bildmanipulation darstellt. Dennoch besteht eine große Lücke zwischen Open-Source-Algorithmen und diesen proprietären Modellen. Daher zielen wir in diesem Artikel darauf ab, ein modernstes Bildbearbeitungsmodell namens Step1X-Edit zu veröffentlichen, das eine vergleichbare Leistung zu proprietären Modellen wie GPT-4o und Gemini2 Flash bietet. Genauer gesagt verwenden wir ein multimodales LLM, um das Referenzbild und die Bearbeitungsanweisungen des Benutzers zu verarbeiten. Eine latente Einbettung wurde extrahiert und mit einem Diffusionsbilddecoder kombiniert, um das Zielbild zu erzeugen. Um das Modell zu trainieren, haben wir eine Datenpipeline entwickelt, um einen hochwertigen Datensatz zu erstellen. Für die Bewertung haben wir GEdit-Bench entwickelt, einen neuartigen Benchmark, der auf realen Benutzeranweisungen basiert. Die experimentellen Ergebnisse auf GEdit-Bench zeigen, dass Step1X-Edit die bestehenden Open-Source-Baselines deutlich übertrifft und sich der Leistung führender proprietärer Modelle annähert, wodurch es einen bedeutenden Beitrag zum Bereich der Bildbearbeitung leistet.
English
In recent years, image editing models have witnessed remarkable and rapid development. The recent unveiling of cutting-edge multimodal models such as GPT-4o and Gemini2 Flash has introduced highly promising image editing capabilities. These models demonstrate an impressive aptitude for fulfilling a vast majority of user-driven editing requirements, marking a significant advancement in the field of image manipulation. However, there is still a large gap between the open-source algorithm with these closed-source models. Thus, in this paper, we aim to release a state-of-the-art image editing model, called Step1X-Edit, which can provide comparable performance against the closed-source models like GPT-4o and Gemini2 Flash. More specifically, we adopt the Multimodal LLM to process the reference image and the user's editing instruction. A latent embedding has been extracted and integrated with a diffusion image decoder to obtain the target image. To train the model, we build a data generation pipeline to produce a high-quality dataset. For evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world user instructions. Experimental results on GEdit-Bench demonstrate that Step1X-Edit outperforms existing open-source baselines by a substantial margin and approaches the performance of leading proprietary models, thereby making significant contributions to the field of image editing.

Summary

AI-Generated Summary

PDF773April 25, 2025