ChatPaper.aiChatPaper

Oltre le Parole: Avanzamenti nella Generazione di Immagini da Testi Lunghi tramite Modelli Autoregressivi Multimodali

Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models

March 26, 2025
Autori: Alex Jinpeng Wang, Linjie Li, Zhengyuan Yang, Lijuan Wang, Min Li
cs.AI

Abstract

I recenti progressi nei modelli autoregressivi e di diffusione hanno portato a prestazioni eccellenti nella generazione di immagini con brevi parole di testo in scena. Tuttavia, generare testi lunghi e coerenti nelle immagini, come paragrafi in slide o documenti, rimane una sfida significativa per i modelli generativi attuali. Presentiamo il primo lavoro specificamente focalizzato sulla generazione di immagini con testo lungo, affrontando una lacuna critica nei sistemi esistenti di testo-immagine che tipicamente gestiscono solo frasi brevi o singole proposizioni. Attraverso un'analisi completa dei modelli di generazione autoregressiva all'avanguardia, identifichiamo il tokenizer delle immagini come un collo di bottiglia critico per la qualità della generazione del testo. Per risolvere questo problema, introduciamo un nuovo tokenizer binario focalizzato sul testo, ottimizzato per catturare dettagliate caratteristiche del testo in scena. Sfruttando il nostro tokenizer, sviluppiamo \ModelName, un modello autoregressivo multimodale che eccelle nella generazione di immagini con testo lungo di alta qualità con una fedeltà senza precedenti. Il nostro modello offre una robusta controllabilità, consentendo la personalizzazione delle proprietà del testo come stile del carattere, dimensione, colore e allineamento. Esperimenti estensivi dimostrano che \ModelName supera significativamente SD3.5 Large~sd3 e GPT4o~gpt4o con DALL-E 3~dalle3 nella generazione accurata, coerente e flessibile di testo lungo. Oltre ai suoi risultati tecnici, \ModelName apre nuove entusiasmanti opportunità per applicazioni innovative come la generazione intervallata di documenti e PowerPoint, stabilendo una nuova frontiera nella generazione di immagini con testo lungo.
English
Recent advancements in autoregressive and diffusion models have led to strong performance in image generation with short scene text words. However, generating coherent, long-form text in images, such as paragraphs in slides or documents, remains a major challenge for current generative models. We present the first work specifically focused on long text image generation, addressing a critical gap in existing text-to-image systems that typically handle only brief phrases or single sentences. Through comprehensive analysis of state-of-the-art autoregressive generation models, we identify the image tokenizer as a critical bottleneck in text generating quality. To address this, we introduce a novel text-focused, binary tokenizer optimized for capturing detailed scene text features. Leveraging our tokenizer, we develop \ModelName, a multimodal autoregressive model that excels in generating high-quality long-text images with unprecedented fidelity. Our model offers robust controllability, enabling customization of text properties such as font style, size, color, and alignment. Extensive experiments demonstrate that \ModelName~significantly outperforms SD3.5 Large~sd3 and GPT4o~gpt4o with DALL-E 3~dalle3 in generating long text accurately, consistently, and flexibly. Beyond its technical achievements, \ModelName~opens up exciting opportunities for innovative applications like interleaved document and PowerPoint generation, establishing a new frontier in long-text image generating.

Summary

AI-Generated Summary

PDF43March 27, 2025