TextAtlas5M: Un conjunto de datos a gran escala para la generación de imágenes de texto denso
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation
February 11, 2025
Autores: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
cs.AI
Resumen
La generación de imágenes condicionada por texto ha ganado una atención significativa en los últimos años y está procesando textos cada vez más largos y completos. En la vida cotidiana, textos densos e intrincados aparecen en contextos como publicidad, infografías y señalización, donde la integración tanto del texto como de las imágenes es esencial para transmitir información compleja. Sin embargo, a pesar de estos avances, la generación de imágenes que contienen texto de formato largo sigue siendo un desafío persistente, en gran parte debido a las limitaciones de los conjuntos de datos existentes, que a menudo se centran en textos más cortos y simples. Para abordar esta brecha, presentamos TextAtlas5M, un nuevo conjunto de datos diseñado específicamente para evaluar la representación de textos largos en la generación de imágenes condicionada por texto. Nuestro conjunto de datos consta de 5 millones de imágenes generadas y recopiladas con textos largos de diversos tipos de datos, lo que permite una evaluación exhaustiva de modelos generativos a gran escala en la generación de imágenes con texto largo. Además, hemos creado un conjunto de pruebas TextAtlasEval mejorado por humanos con 3000 muestras a lo largo de 3 dominios de datos, estableciendo uno de los bancos de pruebas más extensos para la generación condicionada por texto. Las evaluaciones sugieren que los bancos de pruebas TextAtlasEval presentan desafíos significativos incluso para los modelos propietarios más avanzados (por ejemplo, GPT4o con DallE-3), mientras que sus contrapartes de código abierto muestran una brecha de rendimiento aún mayor. Estas evidencias sitúan a TextAtlas5M como un conjunto de datos valioso para entrenar y evaluar modelos de generación de imágenes condicionadas por texto de próxima generación.
English
Text-conditioned image generation has gained significant attention in recent
years and are processing increasingly longer and comprehensive text prompt. In
everyday life, dense and intricate text appears in contexts like
advertisements, infographics, and signage, where the integration of both text
and visuals is essential for conveying complex information. However, despite
these advances, the generation of images containing long-form text remains a
persistent challenge, largely due to the limitations of existing datasets,
which often focus on shorter and simpler text. To address this gap, we
introduce TextAtlas5M, a novel dataset specifically designed to evaluate
long-text rendering in text-conditioned image generation. Our dataset consists
of 5 million long-text generated and collected images across diverse data
types, enabling comprehensive evaluation of large-scale generative models on
long-text image generation. We further curate 3000 human-improved test set
TextAtlasEval across 3 data domains, establishing one of the most extensive
benchmarks for text-conditioned generation. Evaluations suggest that the
TextAtlasEval benchmarks present significant challenges even for the most
advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source
counterparts show an even larger performance gap. These evidences position
TextAtlas5M as a valuable dataset for training and evaluating future-generation
text-conditioned image generation models.Summary
AI-Generated Summary