ChatGen: Generazione Automatica di Immagini da Testo tramite Chat Libera

Abstract

Nonostante i significativi progressi nei modelli generativi di testo-immagine (T2I), gli utenti spesso si trovano di fronte a una sfida di tentativi ed errori in scenari pratici. Questa sfida deriva dalla complessità e dall'incertezza di passaggi noiosi come la creazione di prompt adatti, la selezione di modelli appropriati e la configurazione di argomenti specifici, costringendo gli utenti a tentativi laboriosi per ottenere le immagini desiderate. Questo articolo propone la generazione automatica T2I, che mira ad automatizzare questi passaggi noiosi, consentendo agli utenti di descrivere semplicemente le proprie esigenze in modo conversazionale libero. Per studiare sistematicamente questo problema, introduciamo prima ChatGenBench, un nuovo benchmark progettato per la generazione automatica T2I. Presenta dati accoppiati di alta qualità con input conversazionali diversificati, consentendo una valutazione completa dei modelli T2I automatici in tutti i passaggi. Inoltre, riconoscendo la generazione automatica T2I come un complesso compito di ragionamento multi-step, proponiamo ChatGen-Evo, una strategia evolutiva multi-stadio che equipaggia progressivamente i modelli con competenze di automazione essenziali. Attraverso una valutazione approfondita della precisione step-by-step e della qualità delle immagini, ChatGen-Evo migliora significativamente le prestazioni rispetto a vari baselines. La nostra valutazione rivela anche preziose intuizioni per far progredire la generazione automatica T2I. Tutti i nostri dati, codici e modelli saranno disponibili su https://chengyou-jia.github.io/ChatGen-Home

English

Despite the significant advancements in text-to-image (T2I) generative models, users often face a trial-and-error challenge in practical scenarios. This challenge arises from the complexity and uncertainty of tedious steps such as crafting suitable prompts, selecting appropriate models, and configuring specific arguments, making users resort to labor-intensive attempts for desired images. This paper proposes Automatic T2I generation, which aims to automate these tedious steps, allowing users to simply describe their needs in a freestyle chatting way. To systematically study this problem, we first introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It features high-quality paired data with diverse freestyle inputs, enabling comprehensive evaluation of automatic T2I models across all steps. Additionally, recognizing Automatic T2I as a complex multi-step reasoning task, we propose ChatGen-Evo, a multi-stage evolution strategy that progressively equips models with essential automation skills. Through extensive evaluation across step-wise accuracy and image quality, ChatGen-Evo significantly enhances performance over various baselines. Our evaluation also uncovers valuable insights for advancing automatic T2I. All our data, code, and models will be available in https://chengyou-jia.github.io/ChatGen-Home

ChatGen: Generazione Automatica di Immagini da Testo tramite Chat Libera

ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting

Abstract

Support