ChatPaper.aiChatPaper

TextAtlas5M: 밀집 텍스트 이미지 생성을 위한 대규모 데이터셋

TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

February 11, 2025
저자: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
cs.AI

초록

텍스트 조건 이미지 생성은 최근 몇 년간 상당한 관심을 받아오며, 점차적으로 더 긴 그리고 포괄적인 텍스트 프롬프트를 처리하고 있습니다. 일상생활에서는 광고, 인포그래픽, 간판과 같은 맥락에서 밀집하고 복잡한 텍스트가 나타나는데, 여기서 텍스트와 시각 자료의 통합은 복잡한 정보 전달에 중요합니다. 그러나 이러한 발전에도 불구하고, 긴 형식의 텍스트를 포함한 이미지 생성은 여전히 지속적인 도전으로 남아 있습니다. 이는 기존 데이터셋의 한계 때문인데, 이들은 주로 더 짧고 간단한 텍스트에 초점을 맞추고 있기 때문입니다. 이러한 공백을 해결하기 위해, 우리는 텍스트 조건 이미지 생성에서 긴 텍스트 렌더링을 평가하기 위해 특별히 설계된 혁신적인 데이터셋인 TextAtlas5M을 소개합니다. 저희 데이터셋은 다양한 데이터 유형을 거쳐 생성된 500만 장의 긴 텍스트 이미지로 구성되어 있어, 대규모 생성 모델의 긴 텍스트 이미지 생성에 대한 포괄적인 평가를 가능하게 합니다. 또한, 3가지 데이터 도메인을 통해 3000개의 인간 개선 테스트 세트 TextAtlasEval를 선별하여, 텍스트 조건 생성을 위한 가장 포괄적인 벤치마크 중 하나를 수립하였습니다. 평가 결과는 TextAtlasEval 벤치마크가 가장 선진적인 프로프리터리 모델들 (예: GPT4o with DallE-3)에도 상당한 어려움을 제시하며, 이들의 오픈 소스 상대편들은 더 큰 성능 격차를 보여줍니다. 이러한 증거들은 TextAtlas5M을 향후 세대의 텍스트 조건 이미지 생성 모델을 교육하고 평가하는 데 유용한 데이터셋으로 위치시킵니다.
English
Text-conditioned image generation has gained significant attention in recent years and are processing increasingly longer and comprehensive text prompt. In everyday life, dense and intricate text appears in contexts like advertisements, infographics, and signage, where the integration of both text and visuals is essential for conveying complex information. However, despite these advances, the generation of images containing long-form text remains a persistent challenge, largely due to the limitations of existing datasets, which often focus on shorter and simpler text. To address this gap, we introduce TextAtlas5M, a novel dataset specifically designed to evaluate long-text rendering in text-conditioned image generation. Our dataset consists of 5 million long-text generated and collected images across diverse data types, enabling comprehensive evaluation of large-scale generative models on long-text image generation. We further curate 3000 human-improved test set TextAtlasEval across 3 data domains, establishing one of the most extensive benchmarks for text-conditioned generation. Evaluations suggest that the TextAtlasEval benchmarks present significant challenges even for the most advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source counterparts show an even larger performance gap. These evidences position TextAtlas5M as a valuable dataset for training and evaluating future-generation text-conditioned image generation models.

Summary

AI-Generated Summary

PDF422February 13, 2025