ChatGen: Generazione Automatica di Immagini da Testo tramite Chat Libera
ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
November 26, 2024
Autori: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
cs.AI
Abstract
Nonostante i significativi progressi nei modelli generativi di testo-immagine (T2I), gli utenti spesso si trovano di fronte a una sfida di tentativi ed errori in scenari pratici. Questa sfida deriva dalla complessità e dall'incertezza di passaggi noiosi come la creazione di prompt adatti, la selezione di modelli appropriati e la configurazione di argomenti specifici, costringendo gli utenti a tentativi laboriosi per ottenere le immagini desiderate. Questo articolo propone la generazione automatica T2I, che mira ad automatizzare questi passaggi noiosi, consentendo agli utenti di descrivere semplicemente le proprie esigenze in modo conversazionale libero. Per studiare sistematicamente questo problema, introduciamo prima ChatGenBench, un nuovo benchmark progettato per la generazione automatica T2I. Presenta dati accoppiati di alta qualità con input conversazionali diversificati, consentendo una valutazione completa dei modelli T2I automatici in tutti i passaggi. Inoltre, riconoscendo la generazione automatica T2I come un complesso compito di ragionamento multi-step, proponiamo ChatGen-Evo, una strategia evolutiva multi-stadio che equipaggia progressivamente i modelli con competenze di automazione essenziali. Attraverso una valutazione approfondita della precisione step-by-step e della qualità delle immagini, ChatGen-Evo migliora significativamente le prestazioni rispetto a vari baselines. La nostra valutazione rivela anche preziose intuizioni per far progredire la generazione automatica T2I. Tutti i nostri dati, codici e modelli saranno disponibili su https://chengyou-jia.github.io/ChatGen-Home
English
Despite the significant advancements in text-to-image (T2I) generative
models, users often face a trial-and-error challenge in practical scenarios.
This challenge arises from the complexity and uncertainty of tedious steps such
as crafting suitable prompts, selecting appropriate models, and configuring
specific arguments, making users resort to labor-intensive attempts for desired
images. This paper proposes Automatic T2I generation, which aims to automate
these tedious steps, allowing users to simply describe their needs in a
freestyle chatting way. To systematically study this problem, we first
introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It
features high-quality paired data with diverse freestyle inputs, enabling
comprehensive evaluation of automatic T2I models across all steps.
Additionally, recognizing Automatic T2I as a complex multi-step reasoning task,
we propose ChatGen-Evo, a multi-stage evolution strategy that progressively
equips models with essential automation skills. Through extensive evaluation
across step-wise accuracy and image quality, ChatGen-Evo significantly enhances
performance over various baselines. Our evaluation also uncovers valuable
insights for advancing automatic T2I. All our data, code, and models will be
available in https://chengyou-jia.github.io/ChatGen-HomeSummary
AI-Generated Summary