SketchAgent: Generazione Sequenziale di Bozzetti Guidata dal Linguaggio

Abstract

Lo schizzo si configura come uno strumento versatile per esternalizzare idee, consentendo un'esplorazione rapida e una comunicazione visiva che abbraccia varie discipline. Sebbene i sistemi artificiali abbiano portato a notevoli progressi nella creazione di contenuti e nell'interazione uomo-computer, catturare la natura dinamica e astratta dello schizzo umano rimane una sfida. In questo lavoro, presentiamo SketchAgent, un metodo di generazione sequenziale di schizzi guidato dal linguaggio che consente agli utenti di creare, modificare e perfezionare schizzi attraverso interazioni dinamiche e conversazionali. Il nostro approccio non richiede addestramento o raffinamento. Invece, sfruttiamo la natura sequenziale e la ricca conoscenza pregressa dei modelli di linguaggio multimodali di grandi dimensioni (LLM) disponibili sul mercato. Presentiamo un linguaggio intuitivo per lo schizzo, introdotto nel modello attraverso esempi contestuali, consentendogli di "disegnare" utilizzando azioni basate su stringhe. Queste azioni vengono elaborate in grafica vettoriale e quindi renderizzate per creare uno schizzo su una tela di pixel, che può essere nuovamente accessibile per ulteriori compiti. Disegnando tratto dopo tratto, il nostro agente cattura le qualità evolutive e dinamiche intrinseche allo schizzo. Dimostriamo che SketchAgent può generare schizzi da prompt diversi, intraprendere disegni guidati dal dialogo e collaborare in modo significativo con gli utenti umani.

English

Sketching serves as a versatile tool for externalizing ideas, enabling rapid exploration and visual communication that spans various disciplines. While artificial systems have driven substantial advances in content creation and human-computer interaction, capturing the dynamic and abstract nature of human sketching remains challenging. In this work, we introduce SketchAgent, a language-driven, sequential sketch generation method that enables users to create, modify, and refine sketches through dynamic, conversational interactions. Our approach requires no training or fine-tuning. Instead, we leverage the sequential nature and rich prior knowledge of off-the-shelf multimodal large language models (LLMs). We present an intuitive sketching language, introduced to the model through in-context examples, enabling it to "draw" using string-based actions. These are processed into vector graphics and then rendered to create a sketch on a pixel canvas, which can be accessed again for further tasks. By drawing stroke by stroke, our agent captures the evolving, dynamic qualities intrinsic to sketching. We demonstrate that SketchAgent can generate sketches from diverse prompts, engage in dialogue-driven drawing, and collaborate meaningfully with human users.

SketchAgent: Generazione Sequenziale di Bozzetti Guidata dal Linguaggio

SketchAgent: Language-Driven Sequential Sketch Generation

Abstract

Summary

Support