ChatGen: Automatische Tekst-naar-Afbeelding Generatie Vanuit Vrij Chatten

Samenvatting

Ondanks de aanzienlijke vooruitgang in tekst-naar-afbeelding (T2I) generatieve modellen, worden gebruikers vaak geconfronteerd met een trial-and-error uitdaging in praktijksituaties. Deze uitdaging ontstaat door de complexiteit en onzekerheid van tijdrovende stappen zoals het formuleren van geschikte prompts, het selecteren van passende modellen en het configureren van specifieke argumenten, waardoor gebruikers gedwongen worden tot arbeidsintensieve pogingen om gewenste afbeeldingen te verkrijgen. Dit artikel stelt Automatic T2I-generatie voor, dat tot doel heeft deze tijdrovende stappen te automatiseren, waardoor gebruikers simpelweg hun behoeften kunnen beschrijven op een vrije manier van chatten. Om dit probleem systematisch te bestuderen, introduceren we eerst ChatGenBench, een nieuw benchmark ontworpen voor Automatic T2I. Het bevat hoogwaardige gekoppelde gegevens met diverse vrije inputs, waardoor een uitgebreide evaluatie van automatische T2I-modellen over alle stappen mogelijk is. Bovendien, door Automatic T2I te erkennen als een complexe meerstaps redeneertaak, stellen we ChatGen-Evo voor, een meertraps evolutiestrategie die modellen progressief voorziet van essentiële automatiseringsvaardigheden. Door uitgebreide evaluatie over stapsgewijze nauwkeurigheid en beeldkwaliteit verbetert ChatGen-Evo aanzienlijk de prestaties ten opzichte van verschillende baselines. Onze evaluatie onthult ook waardevolle inzichten voor het bevorderen van automatische T2I. Al onze gegevens, code en modellen zullen beschikbaar zijn op https://chengyou-jia.github.io/ChatGen-Home

English

Despite the significant advancements in text-to-image (T2I) generative models, users often face a trial-and-error challenge in practical scenarios. This challenge arises from the complexity and uncertainty of tedious steps such as crafting suitable prompts, selecting appropriate models, and configuring specific arguments, making users resort to labor-intensive attempts for desired images. This paper proposes Automatic T2I generation, which aims to automate these tedious steps, allowing users to simply describe their needs in a freestyle chatting way. To systematically study this problem, we first introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It features high-quality paired data with diverse freestyle inputs, enabling comprehensive evaluation of automatic T2I models across all steps. Additionally, recognizing Automatic T2I as a complex multi-step reasoning task, we propose ChatGen-Evo, a multi-stage evolution strategy that progressively equips models with essential automation skills. Through extensive evaluation across step-wise accuracy and image quality, ChatGen-Evo significantly enhances performance over various baselines. Our evaluation also uncovers valuable insights for advancing automatic T2I. All our data, code, and models will be available in https://chengyou-jia.github.io/ChatGen-Home

ChatGen: Automatische Tekst-naar-Afbeelding Generatie Vanuit Vrij Chatten

ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting

Samenvatting

Summary

Support

Support