BizGen: Progressi nel Rendering Visivo di Testi a Livello di Articolo per la Generazione di Infografiche
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
March 26, 2025
Autori: Yuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan
cs.AI
Abstract
Recentemente, i modelli all'avanguardia per la generazione di immagini da testo, come Flux e Ideogram 2.0, hanno compiuto progressi significativi nel rendering visivo di testo a livello di frase. In questo articolo, ci concentriamo sugli scenari più complessi del rendering visivo di testo a livello di articolo e affrontiamo un nuovo compito: la generazione di contenuti aziendali di alta qualità, inclusi infografiche e slide, basati su prompt descrittivi a livello di articolo forniti dall'utente e layout ultra-densi. Le sfide fondamentali sono due: contesti significativamente più lunghi e la scarsità di dati di contenuti aziendali di alta qualità.
A differenza della maggior parte dei lavori precedenti che si concentrano su un numero limitato di sotto-regioni e prompt a livello di frase, garantire un'aderenza precisa a layout ultra-densi con decine o addirittura centinaia di sotto-regioni nei contenuti aziendali è molto più impegnativo. Facciamo due contributi tecnici chiave: (i) la costruzione di un dataset scalabile e di alta qualità per contenuti aziendali, ovvero Infographics-650K, dotato di layout ultra-densi e prompt implementando uno schema di generazione di infografiche aumentato con il recupero a livelli; e (ii) uno schema di cross attention guidato dal layout, che inietta decine di prompt specifici per regione in un insieme di spazi latenti ritagliati in base ai layout ultra-densi, e perfeziona ogni sotto-regione in modo flessibile durante l'inferenza utilizzando un CFG condizionato dal layout.
Dimostriamo i risultati solidi del nostro sistema rispetto ai precedenti sistemi SOTA come Flux e SD3 sul nostro set di prompt BizEval. Inoltre, conduciamo esperimenti di ablazione approfonditi per verificare l'efficacia di ciascun componente. Speriamo che il nostro Infographics-650K e BizEval possano incoraggiare la comunità più ampia a progredire nel campo della generazione di contenuti aziendali.
English
Recently, state-of-the-art text-to-image generation models, such as Flux and
Ideogram 2.0, have made significant progress in sentence-level visual text
rendering. In this paper, we focus on the more challenging scenarios of
article-level visual text rendering and address a novel task of generating
high-quality business content, including infographics and slides, based on user
provided article-level descriptive prompts and ultra-dense layouts. The
fundamental challenges are twofold: significantly longer context lengths and
the scarcity of high-quality business content data.
In contrast to most previous works that focus on a limited number of
sub-regions and sentence-level prompts, ensuring precise adherence to
ultra-dense layouts with tens or even hundreds of sub-regions in business
content is far more challenging. We make two key technical contributions: (i)
the construction of scalable, high-quality business content dataset, i.e.,
Infographics-650K, equipped with ultra-dense layouts and prompts by
implementing a layer-wise retrieval-augmented infographic generation scheme;
and (ii) a layout-guided cross attention scheme, which injects tens of
region-wise prompts into a set of cropped region latent space according to the
ultra-dense layouts, and refine each sub-regions flexibly during inference
using a layout conditional CFG.
We demonstrate the strong results of our system compared to previous SOTA
systems such as Flux and SD3 on our BizEval prompt set. Additionally, we
conduct thorough ablation experiments to verify the effectiveness of each
component. We hope our constructed Infographics-650K and BizEval can encourage
the broader community to advance the progress of business content generation.Summary
AI-Generated Summary