LeX-Art: Neudenken der Textgenerierung durch skalierbare Synthese hochwertiger Daten
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis
March 27, 2025
Autoren: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
cs.AI
Zusammenfassung
Wir stellen LeX-Art vor, eine umfassende Suite für hochwertige Text-Bild-Synthese, die systematisch die Lücke zwischen Prompt-Ausdruckskraft und Textwiedergabetreue schließt. Unser Ansatz folgt einem datenzentrierten Paradigma und konstruiert eine hochwertige Daten-Synthese-Pipeline basierend auf Deepseek-R1, um LeX-10K zu kuratieren, einen Datensatz mit 10.000 hochauflösenden, ästhetisch verfeinerten 1024x1024 Bildern. Über die Datensatzerstellung hinaus entwickeln wir LeX-Enhancer, ein robustes Prompt-Anreicherungsmodell, und trainieren zwei Text-zu-Bild-Modelle, LeX-FLUX und LeX-Lumina, die state-of-the-art Leistung in der Textwiedergabe erreichen. Um die visuelle Textgenerierung systematisch zu bewerten, führen wir LeX-Bench ein, einen Benchmark, der Treue, Ästhetik und Ausrichtung bewertet, ergänzt durch Pairwise Normalized Edit Distance (PNED), eine neuartige Metrik zur robusten Bewertung der Textgenauigkeit. Experimente zeigen signifikante Verbesserungen, wobei LeX-Lumina eine PNED-Steigerung von 79,81 % auf CreateBench erreicht und LeX-FLUX die Baselines in Farbgenauigkeit (+3,18 %), Positionsgenauigkeit (+4,45 %) und Schriftgenauigkeit (+3,81 %) übertrifft. Unsere Codes, Modelle, Datensätze und Demo sind öffentlich verfügbar.
English
We introduce LeX-Art, a comprehensive suite for high-quality text-image
synthesis that systematically bridges the gap between prompt expressiveness and
text rendering fidelity. Our approach follows a data-centric paradigm,
constructing a high-quality data synthesis pipeline based on Deepseek-R1 to
curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined
1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer,
a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX
and LeX-Lumina, achieving state-of-the-art text rendering performance. To
systematically evaluate visual text generation, we introduce LeX-Bench, a
benchmark that assesses fidelity, aesthetics, and alignment, complemented by
Pairwise Normalized Edit Distance (PNED), a novel metric for robust text
accuracy evaluation. Experiments demonstrate significant improvements, with
LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX
outperforming baselines in color (+3.18%), positional (+4.45%), and font
accuracy (+3.81%). Our codes, models, datasets, and demo are publicly
available.Summary
AI-Generated Summary