ChatGen: Automatische Tekst-naar-Afbeelding Generatie Vanuit Vrij Chatten
ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
November 26, 2024
Auteurs: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
cs.AI
Samenvatting
Ondanks de aanzienlijke vooruitgang in tekst-naar-afbeelding (T2I) generatieve modellen, worden gebruikers vaak geconfronteerd met een trial-and-error uitdaging in praktijksituaties. Deze uitdaging ontstaat door de complexiteit en onzekerheid van tijdrovende stappen zoals het formuleren van geschikte prompts, het selecteren van passende modellen en het configureren van specifieke argumenten, waardoor gebruikers gedwongen worden tot arbeidsintensieve pogingen om gewenste afbeeldingen te verkrijgen. Dit artikel stelt Automatic T2I-generatie voor, dat tot doel heeft deze tijdrovende stappen te automatiseren, waardoor gebruikers simpelweg hun behoeften kunnen beschrijven op een vrije manier van chatten. Om dit probleem systematisch te bestuderen, introduceren we eerst ChatGenBench, een nieuw benchmark ontworpen voor Automatic T2I. Het bevat hoogwaardige gekoppelde gegevens met diverse vrije inputs, waardoor een uitgebreide evaluatie van automatische T2I-modellen over alle stappen mogelijk is. Bovendien, door Automatic T2I te erkennen als een complexe meerstaps redeneertaak, stellen we ChatGen-Evo voor, een meertraps evolutiestrategie die modellen progressief voorziet van essentiële automatiseringsvaardigheden. Door uitgebreide evaluatie over stapsgewijze nauwkeurigheid en beeldkwaliteit verbetert ChatGen-Evo aanzienlijk de prestaties ten opzichte van verschillende baselines. Onze evaluatie onthult ook waardevolle inzichten voor het bevorderen van automatische T2I. Al onze gegevens, code en modellen zullen beschikbaar zijn op https://chengyou-jia.github.io/ChatGen-Home
English
Despite the significant advancements in text-to-image (T2I) generative
models, users often face a trial-and-error challenge in practical scenarios.
This challenge arises from the complexity and uncertainty of tedious steps such
as crafting suitable prompts, selecting appropriate models, and configuring
specific arguments, making users resort to labor-intensive attempts for desired
images. This paper proposes Automatic T2I generation, which aims to automate
these tedious steps, allowing users to simply describe their needs in a
freestyle chatting way. To systematically study this problem, we first
introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It
features high-quality paired data with diverse freestyle inputs, enabling
comprehensive evaluation of automatic T2I models across all steps.
Additionally, recognizing Automatic T2I as a complex multi-step reasoning task,
we propose ChatGen-Evo, a multi-stage evolution strategy that progressively
equips models with essential automation skills. Through extensive evaluation
across step-wise accuracy and image quality, ChatGen-Evo significantly enhances
performance over various baselines. Our evaluation also uncovers valuable
insights for advancing automatic T2I. All our data, code, and models will be
available in https://chengyou-jia.github.io/ChatGen-HomeSummary
AI-Generated Summary