TextCrafter: Rendering Precise di Testi Multipli in Scene Visuali Complesse
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes
March 30, 2025
Autori: Nikai Du, Zhennan Chen, Zhizhou Chen, Shan Gao, Xi Chen, Zhengkai Jiang, Jian Yang, Ying Tai
cs.AI
Abstract
Questo articolo esplora il compito della Generazione di Testo Visivo Complesso (CVTG), che si concentra sulla creazione di contenuti testuali intricati distribuiti in diverse regioni all'interno di immagini visive. Nel CVTG, i modelli di generazione di immagini spesso producono testo visivo distorto e sfocato o omettendo parte del testo visivo. Per affrontare queste sfide, proponiamo TextCrafter, un nuovo metodo di rendering multi-testo visivo. TextCrafter utilizza una strategia progressiva per scomporre il testo visivo complesso in componenti distinti, garantendo un allineamento robusto tra il contenuto testuale e il suo supporto visivo. Inoltre, incorpora un meccanismo di potenziamento della focalizzazione sui token per amplificare la prominenza del testo visivo durante il processo di generazione. TextCrafter affronta efficacemente le principali sfide nei compiti CVTG, come la confusione del testo, le omissioni e la sfocatura. Inoltre, presentiamo un nuovo dataset di benchmark, CVTG-2K, progettato per valutare rigorosamente le prestazioni dei modelli generativi nei compiti CVTG. Esperimenti estensivi dimostrano che il nostro metodo supera gli approcci all'avanguardia.
English
This paper explores the task of Complex Visual Text Generation (CVTG), which
centers on generating intricate textual content distributed across diverse
regions within visual images. In CVTG, image generation models often rendering
distorted and blurred visual text or missing some visual text. To tackle these
challenges, we propose TextCrafter, a novel multi-visual text rendering method.
TextCrafter employs a progressive strategy to decompose complex visual text
into distinct components while ensuring robust alignment between textual
content and its visual carrier. Additionally, it incorporates a token focus
enhancement mechanism to amplify the prominence of visual text during the
generation process. TextCrafter effectively addresses key challenges in CVTG
tasks, such as text confusion, omissions, and blurriness. Moreover, we present
a new benchmark dataset, CVTG-2K, tailored to rigorously evaluate the
performance of generative models on CVTG tasks. Extensive experiments
demonstrate that our method surpasses state-of-the-art approaches.Summary
AI-Generated Summary