ChatPaper.aiChatPaper

LeX-Art: Neudenken der Textgenerierung durch skalierbare Synthese hochwertiger Daten

LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

March 27, 2025
Autoren: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
cs.AI

Zusammenfassung

Wir stellen LeX-Art vor, eine umfassende Suite für hochwertige Text-Bild-Synthese, die systematisch die Lücke zwischen Prompt-Ausdruckskraft und Textwiedergabetreue schließt. Unser Ansatz folgt einem datenzentrierten Paradigma und konstruiert eine hochwertige Daten-Synthese-Pipeline basierend auf Deepseek-R1, um LeX-10K zu kuratieren, einen Datensatz mit 10.000 hochauflösenden, ästhetisch verfeinerten 1024x1024 Bildern. Über die Datensatzerstellung hinaus entwickeln wir LeX-Enhancer, ein robustes Prompt-Anreicherungsmodell, und trainieren zwei Text-zu-Bild-Modelle, LeX-FLUX und LeX-Lumina, die state-of-the-art Leistung in der Textwiedergabe erreichen. Um die visuelle Textgenerierung systematisch zu bewerten, führen wir LeX-Bench ein, einen Benchmark, der Treue, Ästhetik und Ausrichtung bewertet, ergänzt durch Pairwise Normalized Edit Distance (PNED), eine neuartige Metrik zur robusten Bewertung der Textgenauigkeit. Experimente zeigen signifikante Verbesserungen, wobei LeX-Lumina eine PNED-Steigerung von 79,81 % auf CreateBench erreicht und LeX-FLUX die Baselines in Farbgenauigkeit (+3,18 %), Positionsgenauigkeit (+4,45 %) und Schriftgenauigkeit (+3,81 %) übertrifft. Unsere Codes, Modelle, Datensätze und Demo sind öffentlich verfügbar.
English
We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

Summary

AI-Generated Summary

PDF252March 28, 2025