ChatPaper.aiChatPaper

LeX-Art: Ripensare la generazione di testo attraverso la sintesi scalabile di dati di alta qualità

LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

March 27, 2025
Autori: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
cs.AI

Abstract

Presentiamo LeX-Art, una suite completa per la sintesi di alta qualità tra testo e immagine che colma sistematicamente il divario tra l'espressività dei prompt e la fedeltà del rendering del testo. Il nostro approccio segue un paradigma incentrato sui dati, costruendo una pipeline di sintesi dati di alta qualità basata su Deepseek-R1 per curare LeX-10K, un dataset di 10.000 immagini ad alta risoluzione e raffinate esteticamente in formato 1024x1024. Oltre alla costruzione del dataset, sviluppiamo LeX-Enhancer, un modello robusto per l'arricchimento dei prompt, e addestriamo due modelli text-to-image, LeX-FLUX e LeX-Lumina, raggiungendo prestazioni all'avanguardia nel rendering del testo. Per valutare sistematicamente la generazione visiva del testo, introduciamo LeX-Bench, un benchmark che valuta fedeltà, estetica e allineamento, integrato dalla Pairwise Normalized Edit Distance (PNED), una nuova metrica per la valutazione robusta dell'accuratezza del testo. Gli esperimenti dimostrano miglioramenti significativi, con LeX-Lumina che raggiunge un guadagno del 79,81% in PNED su CreateBench, e LeX-FLUX che supera i baseline in accuratezza del colore (+3,18%), posizionale (+4,45%) e del font (+3,81%). I nostri codici, modelli, dataset e demo sono pubblicamente disponibili.
English
We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

Summary

AI-Generated Summary

PDF262March 28, 2025