ChatPaper.aiChatPaper

TikZero: Null-Shot Textgesteuerte Synthese von Grafikprogrammen

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

March 14, 2025
Autoren: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto
cs.AI

Zusammenfassung

Mit dem Aufstieg generativer KI wird die Synthese von Abbildungen aus Textbeschreibungen zu einer vielversprechenden Anwendung. Allerdings erfordert das Erreichen hoher geometrischer Präzision und Bearbeitbarkeit die Darstellung von Abbildungen als Grafikprogramme in Sprachen wie TikZ, und ausgerichtete Trainingsdaten (d. h. Grafikprogramme mit Beschreibungen) bleiben knapp. Gleichzeitig sind große Mengen nicht ausgerichteter Grafikprogramme und beschrifteter Rasterbilder leichter verfügbar. Wir vereinen diese unterschiedlichen Datenquellen, indem wir TikZero vorstellen, das die Generierung von Grafikprogrammen vom Textverständnis entkoppelt, indem es Bilddarstellungen als vermittelnde Brücke nutzt. Es ermöglicht unabhängiges Training an Grafikprogrammen und beschrifteten Bildern und erlaubt die null-Shot-Synthese von Grafikprogrammen, die durch Text geleitet wird, während der Inferenz. Wir zeigen, dass unsere Methode Baseline-Modelle, die nur mit beschriftungsausgerichteten Grafikprogrammen arbeiten können, deutlich übertrifft. Darüber hinaus übertrifft TikZero, wenn es beschriftungsausgerichtete Grafikprogramme als ergänzendes Trainingssignal nutzt, die Leistung viel größerer Modelle, einschließlich kommerzieller Systeme wie GPT-4o, oder erreicht diese. Unser Code, Datensätze und ausgewählte Modelle sind öffentlich verfügbar.
English
With the rise of generative AI, synthesizing figures from text captions becomes a compelling application. However, achieving high geometric precision and editability requires representing figures as graphics programs in languages like TikZ, and aligned training data (i.e., graphics programs with captions) remains scarce. Meanwhile, large amounts of unaligned graphics programs and captioned raster images are more readily available. We reconcile these disparate data sources by presenting TikZero, which decouples graphics program generation from text understanding by using image representations as an intermediary bridge. It enables independent training on graphics programs and captioned images and allows for zero-shot text-guided graphics program synthesis during inference. We show that our method substantially outperforms baselines that can only operate with caption-aligned graphics programs. Furthermore, when leveraging caption-aligned graphics programs as a complementary training signal, TikZero matches or exceeds the performance of much larger models, including commercial systems like GPT-4o. Our code, datasets, and select models are publicly available.

Summary

AI-Generated Summary

PDF32March 21, 2025