ChatPaper.aiChatPaper

ComfyGen: 텍스트에서 이미지로 생성하는 작업에 대한 프롬프트 적응형 워크플로우

ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

October 2, 2024
저자: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
cs.AI

초록

텍스트 대 이미지 생성의 실용적 사용은 단순한 단일 모델에서 여러 전문 구성 요소를 결합한 복잡한 워크플로로 진화해 왔습니다. 워크플로 기반 접근 방식은 이미지 품질을 향상시킬 수 있지만, 효과적인 워크플로를 만들기 위해서는 많은 구성 요소, 그들의 복잡한 상호 의존성, 그리고 생성 프롬프트에 대한 의존성 때문에 상당한 전문 지식이 필요합니다. 본 연구에서는 사용자 프롬프트에 맞게 워크플로를 자동으로 맞추는 새로운 작업인 프롬프트 적응형 워크플로 생성을 소개합니다. 이 작업을 해결하기 위해 두 가지 LLM 기반 접근 방법을 제안합니다: 사용자 선호도 데이터로부터 학습하는 튜닝 기반 방법과 기존 플로우를 선택하기 위해 LLM을 사용하는 훈련 불필요한 방법입니다. 두 접근 방식 모두 단일 모델이나 일반적인, 프롬프트에 독립적인 워크플로와 비교했을 때 이미지 품질을 향상시킵니다. 우리의 연구는 프롬프트에 의존하는 플로우 예측이 텍스트 대 이미지 생성 품질을 향상시키는 새로운 방법을 제공하며, 이는 해당 분야의 기존 연구 방향을 보완합니다.
English
The practical use of text-to-image generation has evolved from simple, monolithic models to complex workflows that combine multiple specialized components. While workflow-based approaches can lead to improved image quality, crafting effective workflows requires significant expertise, owing to the large number of available components, their complex inter-dependence, and their dependence on the generation prompt. Here, we introduce the novel task of prompt-adaptive workflow generation, where the goal is to automatically tailor a workflow to each user prompt. We propose two LLM-based approaches to tackle this task: a tuning-based method that learns from user-preference data, and a training-free method that uses the LLM to select existing flows. Both approaches lead to improved image quality when compared to monolithic models or generic, prompt-independent workflows. Our work shows that prompt-dependent flow prediction offers a new pathway to improving text-to-image generation quality, complementing existing research directions in the field.

Summary

AI-Generated Summary

PDF172November 16, 2024