OmniSVG: Un Modello Unificato per la Generazione di Grafica Vettoriale Scalabile
OmniSVG: A Unified Scalable Vector Graphics Generation Model
April 8, 2025
Autori: Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Abstract
Scalable Vector Graphics (SVG) è un importante formato di immagine ampiamente adottato nel design grafico grazie alla sua indipendenza dalla risoluzione e alla facilità di modifica. Lo studio sulla generazione di SVG di alta qualità ha continuato ad attirare l'attenzione sia dei designer che dei ricercatori nella comunità AIGC. Tuttavia, i metodi esistenti producono o output non strutturati con un elevato costo computazionale o sono limitati alla generazione di icone monocromatiche con strutture eccessivamente semplificate. Per produrre SVG di alta qualità e complessi, proponiamo OmniSVG, un framework unificato che sfrutta modelli Vision-Language (VLM) pre-addestrati per la generazione multimodale end-to-end di SVG. Parametrizzando i comandi e le coordinate SVG in token discreti, OmniSVG separa la logica strutturale dalla geometria di basso livello per un addestramento efficiente, mantenendo al contempo l'espressività delle strutture SVG complesse. Per promuovere ulteriormente lo sviluppo della sintesi SVG, introduciamo MMSVG-2M, un dataset multimodale con due milioni di asset SVG riccamente annotati, insieme a un protocollo di valutazione standardizzato per i task di generazione condizionata di SVG. Esperimenti estensivi dimostrano che OmniSVG supera i metodi esistenti e mostra il suo potenziale per l'integrazione nei flussi di lavoro professionali di design SVG.
English
Scalable Vector Graphics (SVG) is an important image format widely adopted in
graphic design because of their resolution independence and editability. The
study of generating high-quality SVG has continuously drawn attention from both
designers and researchers in the AIGC community. However, existing methods
either produces unstructured outputs with huge computational cost or is limited
to generating monochrome icons of over-simplified structures. To produce
high-quality and complex SVG, we propose OmniSVG, a unified framework that
leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal
SVG generation. By parameterizing SVG commands and coordinates into discrete
tokens, OmniSVG decouples structural logic from low-level geometry for
efficient training while maintaining the expressiveness of complex SVG
structure. To further advance the development of SVG synthesis, we introduce
MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets,
along with a standardized evaluation protocol for conditional SVG generation
tasks. Extensive experiments show that OmniSVG outperforms existing methods and
demonstrates its potential for integration into professional SVG design
workflows.Summary
AI-Generated Summary