ChatPaper.aiChatPaper

스케치 에이전트: 언어 주도 시퀀셜 스케치 생성

SketchAgent: Language-Driven Sequential Sketch Generation

November 26, 2024
저자: Yael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba
cs.AI

초록

스케치는 아이디어를 외부에 표현하는 다재다능한 도구로 작용하여, 다양한 학문 분야에 걸쳐 빠른 탐구와 시각적 커뮤니케이션을 가능하게 합니다. 인공 시스템이 콘텐츠 생성과 인간-컴퓨터 상호작용에서 상당한 발전을 이끌어내었지만, 인간의 스케치의 동적이고 추상적인 성격을 포착하는 것은 여전히 어려운 과제입니다. 본 연구에서는 사용자가 동적 대화 상호작용을 통해 스케치를 만들고 수정하며 정제할 수 있는 언어 주도 순차적 스케치 생성 방법인 SketchAgent를 소개합니다. 저희 방법론은 훈련이나 세밀한 조정이 필요하지 않습니다. 대신, 우리는 순차적 성겱과 다양한 사전 지식을 활용하여 상용 멀티모달 대형 언어 모델(LLMs)을 사용합니다. 우리는 모델에 컨텍스트 예제를 통해 소개된 직관적인 스케치 언어를 제시하여, 이를 통해 문자열 기반 액션을 사용하여 "그릴" 수 있도록 합니다. 이러한 액션들은 벡터 그래픽으로 처리되어 픽셀 캔버스에 스케치를 만들기 위해 렌더링됩니다. 이후 추가 작업을 위해 다시 액세스할 수 있습니다. 저희 에이전트는 한 번에 한 번씩 스트로크를 그려가며, 스케치의 진화하는 동적 특성을 포착합니다. 우리는 SketchAgent가 다양한 프롬프트로부터 스케치를 생성하고, 대화 주도적 그리기를 수행하며, 인간 사용자와 의미 있는 협업을 할 수 있다는 것을 입증합니다.
English
Sketching serves as a versatile tool for externalizing ideas, enabling rapid exploration and visual communication that spans various disciplines. While artificial systems have driven substantial advances in content creation and human-computer interaction, capturing the dynamic and abstract nature of human sketching remains challenging. In this work, we introduce SketchAgent, a language-driven, sequential sketch generation method that enables users to create, modify, and refine sketches through dynamic, conversational interactions. Our approach requires no training or fine-tuning. Instead, we leverage the sequential nature and rich prior knowledge of off-the-shelf multimodal large language models (LLMs). We present an intuitive sketching language, introduced to the model through in-context examples, enabling it to "draw" using string-based actions. These are processed into vector graphics and then rendered to create a sketch on a pixel canvas, which can be accessed again for further tasks. By drawing stroke by stroke, our agent captures the evolving, dynamic qualities intrinsic to sketching. We demonstrate that SketchAgent can generate sketches from diverse prompts, engage in dialogue-driven drawing, and collaborate meaningfully with human users.

Summary

AI-Generated Summary

PDF194November 27, 2024