BizGen: Fortschritt in der visuellen Textdarstellung auf Artikelebene für die Infografik-Generierung
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
March 26, 2025
Autoren: Yuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan
cs.AI
Zusammenfassung
Kürzlich haben state-of-the-art Text-zu-Bild-Generierungsmodelle wie Flux und Ideogram 2.0 bedeutende Fortschritte bei der visuellen Textdarstellung auf Satzebene erzielt. In diesem Artikel konzentrieren wir uns auf die anspruchsvolleren Szenarien der visuellen Textdarstellung auf Artikelebene und behandeln eine neuartige Aufgabe: die Erstellung hochwertiger Geschäftsinhalte, einschließlich Infografiken und Folien, basierend auf vom Benutzer bereitgestellten beschreibenden Prompts auf Artikelebene und ultra-dichten Layouts. Die grundlegenden Herausforderungen sind zweierlei: deutlich längere Kontextlängen und die Knappheit an hochwertigen Geschäftsinhaltsdaten.
Im Gegensatz zu den meisten früheren Arbeiten, die sich auf eine begrenzte Anzahl von Teilbereichen und Prompts auf Satzebene konzentrieren, ist die genaue Einhaltung von ultra-dichten Layouts mit Dutzenden oder sogar Hunderten von Teilbereichen in Geschäftsinhalten weitaus schwieriger. Wir leisten zwei wesentliche technische Beiträge: (i) die Erstellung eines skalierbaren, hochwertigen Geschäftsinhaltsdatensatzes, nämlich Infographics-650K, ausgestattet mit ultra-dichten Layouts und Prompts durch die Implementierung eines schichtenweisen, retrieval-augmentierten Infografik-Generierungsschemas; und (ii) ein layoutgeführtes Cross-Attention-Schema, das Dutzende von regionsspezifischen Prompts in einen Satz von zugeschnittenen Regionen im latenten Raum gemäß den ultra-dichten Layouts injiziert und jede Teilregion während der Inferenz flexibel mithilfe eines layoutbedingten CFG verfeinert.
Wir demonstrieren die überzeugenden Ergebnisse unseres Systems im Vergleich zu früheren SOTA-Systemen wie Flux und SD3 auf unserem BizEval-Prompt-Set. Zusätzlich führen wir umfassende Ablationsexperimente durch, um die Wirksamkeit jeder Komponente zu überprüfen. Wir hoffen, dass unser erstellter Infographics-650K-Datensatz und BizEval die breitere Gemeinschaft dazu anregen, die Fortschritte bei der Generierung von Geschäftsinhalten voranzutreiben.
English
Recently, state-of-the-art text-to-image generation models, such as Flux and
Ideogram 2.0, have made significant progress in sentence-level visual text
rendering. In this paper, we focus on the more challenging scenarios of
article-level visual text rendering and address a novel task of generating
high-quality business content, including infographics and slides, based on user
provided article-level descriptive prompts and ultra-dense layouts. The
fundamental challenges are twofold: significantly longer context lengths and
the scarcity of high-quality business content data.
In contrast to most previous works that focus on a limited number of
sub-regions and sentence-level prompts, ensuring precise adherence to
ultra-dense layouts with tens or even hundreds of sub-regions in business
content is far more challenging. We make two key technical contributions: (i)
the construction of scalable, high-quality business content dataset, i.e.,
Infographics-650K, equipped with ultra-dense layouts and prompts by
implementing a layer-wise retrieval-augmented infographic generation scheme;
and (ii) a layout-guided cross attention scheme, which injects tens of
region-wise prompts into a set of cropped region latent space according to the
ultra-dense layouts, and refine each sub-regions flexibly during inference
using a layout conditional CFG.
We demonstrate the strong results of our system compared to previous SOTA
systems such as Flux and SD3 on our BizEval prompt set. Additionally, we
conduct thorough ablation experiments to verify the effectiveness of each
component. We hope our constructed Infographics-650K and BizEval can encourage
the broader community to advance the progress of business content generation.Summary
AI-Generated Summary