ChatGen: 자유로운 대화로부터의 자동 텍스트에서 이미지 생성
ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
November 26, 2024
저자: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
cs.AI
초록
텍스트에서 이미지로 (T2I) 생성 모델의 중요한 발전에도 불구하고, 사용자들은 실제 시나리오에서 시행착오 도전에 직면하는 경우가 많습니다. 이 도전은 적절한 프롬프트 작성, 적합한 모델 선택, 특정 인수 구성과 같은 복잡하고 불확실한 단계에서 발생하며, 사용자들은 원하는 이미지를 얻기 위해 노동 집약적인 시도에 의존해야 합니다. 본 논문은 자동 T2I 생성을 제안하며, 이는 이러한 번거로운 단계들을 자동화하여 사용자들이 자유롭게 채팅하는 방식으로 필요를 설명할 수 있도록 하는 것을 목표로 합니다. 이 문제를 체계적으로 연구하기 위해 먼저 자동 T2I를 위해 설계된 혁신적인 벤치마크인 ChatGenBench를 소개합니다. 이는 다양한 자유로운 입력을 갖는 고품질의 페어 데이터를 특징으로 하며, 모든 단계에서 자동 T2I 모델의 포괄적인 평가를 가능하게 합니다. 또한 복잡한 다단계 추론 작업으로 자동 T2I를 인식함에 따라, 점진적으로 모델에 필수적인 자동화 기술을 제공하는 다단계 진화 전략인 ChatGen-Evo를 제안합니다. 단계별 정확도와 이미지 품질에 걸쳐 광범위한 평가를 통해 ChatGen-Evo는 다양한 기준선에 비해 성능을 현저히 향상시킵니다. 우리의 평가는 자동 T2I를 발전시키는 데 유용한 통찰을 제공합니다. 모든 데이터, 코드 및 모델은 https://chengyou-jia.github.io/ChatGen-Home에서 제공될 예정입니다.
English
Despite the significant advancements in text-to-image (T2I) generative
models, users often face a trial-and-error challenge in practical scenarios.
This challenge arises from the complexity and uncertainty of tedious steps such
as crafting suitable prompts, selecting appropriate models, and configuring
specific arguments, making users resort to labor-intensive attempts for desired
images. This paper proposes Automatic T2I generation, which aims to automate
these tedious steps, allowing users to simply describe their needs in a
freestyle chatting way. To systematically study this problem, we first
introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It
features high-quality paired data with diverse freestyle inputs, enabling
comprehensive evaluation of automatic T2I models across all steps.
Additionally, recognizing Automatic T2I as a complex multi-step reasoning task,
we propose ChatGen-Evo, a multi-stage evolution strategy that progressively
equips models with essential automation skills. Through extensive evaluation
across step-wise accuracy and image quality, ChatGen-Evo significantly enhances
performance over various baselines. Our evaluation also uncovers valuable
insights for advancing automatic T2I. All our data, code, and models will be
available in https://chengyou-jia.github.io/ChatGen-HomeSummary
AI-Generated Summary