GraPE: Un framework Genera-Pianifica-Modifica per la sintesi compositiva T2I
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis
December 8, 2024
Autori: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI
Abstract
La generazione di immagini da testo (T2I) ha visto significativi progressi con i modelli di diffusione, consentendo la generazione di immagini fotorealistiche da prompt di testo. Nonostante questo progresso, i metodi esistenti continuano ad affrontare sfide nel seguire prompt di testo complessi, specialmente quelli che richiedono ragionamento compositivo e multi-step. Date istruzioni così complesse, i modelli SOTA spesso commettono errori nel modellare fedelmente gli attributi degli oggetti e le relazioni tra di essi. In questo lavoro, presentiamo un paradigma alternativo per la sintesi T2I, decomponendo il compito di generazione complessa multi-step in tre fasi: (a) Generazione: generiamo innanzitutto un'immagine utilizzando i modelli di diffusione esistenti; (b) Pianificazione: facciamo uso di Modelli LLM Multi-Modal (MLLM) per identificare gli errori nell'immagine generata espressi in termini di singoli oggetti e delle loro proprietà, e produciamo una sequenza di passaggi correttivi necessari sotto forma di un piano di modifica; (c) Modifica: facciamo uso di modelli di modifica di immagini guidati da testo esistenti per eseguire sequenzialmente il nostro piano di modifica sull'immagine generata per ottenere l'immagine desiderata che sia fedele all'istruzione originale. Il nostro approccio trae forza dal fatto che è modulare per natura, non richiede addestramento e può essere applicato su qualsiasi combinazione di modelli di generazione e modifica di immagini. Come contributo aggiuntivo, sviluppiamo anche un modello in grado di modifiche compositive, che aiuta ulteriormente a migliorare la precisione complessiva del nostro approccio proposto. Il nostro metodo scambia flessibilmente il tempo di inferenza con le prestazioni sui prompt di testo compositivi. Effettuiamo una valutazione sperimentale approfondita su 3 benchmark e 10 modelli T2I, inclusi DALLE-3 e il più recente - SD-3.5-Large. Il nostro approccio non solo migliora le prestazioni dei modelli SOTA, fino a 3 punti percentuali, ma riduce anche il divario di prestazioni tra modelli più deboli e più forti.
English
Text-to-image (T2I) generation has seen significant progress with diffusion
models, enabling generation of photo-realistic images from text prompts.
Despite this progress, existing methods still face challenges in following
complex text prompts, especially those requiring compositional and multi-step
reasoning. Given such complex instructions, SOTA models often make mistakes in
faithfully modeling object attributes, and relationships among them. In this
work, we present an alternate paradigm for T2I synthesis, decomposing the task
of complex multi-step generation into three steps, (a) Generate: we first
generate an image using existing diffusion models (b) Plan: we make use of
Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image
expressed in terms of individual objects and their properties, and produce a
sequence of corrective steps required in the form of an edit-plan. (c) Edit: we
make use of an existing text-guided image editing models to sequentially
execute our edit-plan over the generated image to get the desired image which
is faithful to the original instruction. Our approach derives its strength from
the fact that it is modular in nature, is training free, and can be applied
over any combination of image generation and editing models. As an added
contribution, we also develop a model capable of compositional editing, which
further helps improve the overall accuracy of our proposed approach. Our method
flexibly trades inference time compute with performance on compositional text
prompts. We perform extensive experimental evaluation across 3 benchmarks and
10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach
not only improves the performance of the SOTA models, by upto 3 points, it also
reduces the performance gap between weaker and stronger models.
https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}Summary
AI-Generated Summary