TextCrafter: Rendering Precise di Testi Multipli in Scene Visuali Complesse

Abstract

Questo articolo esplora il compito della Generazione di Testo Visivo Complesso (CVTG), che si concentra sulla creazione di contenuti testuali intricati distribuiti in diverse regioni all'interno di immagini visive. Nel CVTG, i modelli di generazione di immagini spesso producono testo visivo distorto e sfocato o omettendo parte del testo visivo. Per affrontare queste sfide, proponiamo TextCrafter, un nuovo metodo di rendering multi-testo visivo. TextCrafter utilizza una strategia progressiva per scomporre il testo visivo complesso in componenti distinti, garantendo un allineamento robusto tra il contenuto testuale e il suo supporto visivo. Inoltre, incorpora un meccanismo di potenziamento della focalizzazione sui token per amplificare la prominenza del testo visivo durante il processo di generazione. TextCrafter affronta efficacemente le principali sfide nei compiti CVTG, come la confusione del testo, le omissioni e la sfocatura. Inoltre, presentiamo un nuovo dataset di benchmark, CVTG-2K, progettato per valutare rigorosamente le prestazioni dei modelli generativi nei compiti CVTG. Esperimenti estensivi dimostrano che il nostro metodo supera gli approcci all'avanguardia.

English

This paper explores the task of Complex Visual Text Generation (CVTG), which centers on generating intricate textual content distributed across diverse regions within visual images. In CVTG, image generation models often rendering distorted and blurred visual text or missing some visual text. To tackle these challenges, we propose TextCrafter, a novel multi-visual text rendering method. TextCrafter employs a progressive strategy to decompose complex visual text into distinct components while ensuring robust alignment between textual content and its visual carrier. Additionally, it incorporates a token focus enhancement mechanism to amplify the prominence of visual text during the generation process. TextCrafter effectively addresses key challenges in CVTG tasks, such as text confusion, omissions, and blurriness. Moreover, we present a new benchmark dataset, CVTG-2K, tailored to rigorously evaluate the performance of generative models on CVTG tasks. Extensive experiments demonstrate that our method surpasses state-of-the-art approaches.

TextCrafter: Rendering Precise di Testi Multipli in Scene Visuali Complesse

TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

Abstract

Summary

Support

Support