GraPE: Un framework Genera-Pianifica-Modifica per la sintesi compositiva T2I

GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

December 8, 2024
Autori: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI

Abstract

La generazione di immagini da testo (T2I) ha visto significativi progressi con i modelli di diffusione, consentendo la generazione di immagini fotorealistiche da prompt di testo. Nonostante questo progresso, i metodi esistenti continuano ad affrontare sfide nel seguire prompt di testo complessi, specialmente quelli che richiedono ragionamento compositivo e multi-step. Date istruzioni così complesse, i modelli SOTA spesso commettono errori nel modellare fedelmente gli attributi degli oggetti e le relazioni tra di essi. In questo lavoro, presentiamo un paradigma alternativo per la sintesi T2I, decomponendo il compito di generazione complessa multi-step in tre fasi: (a) Generazione: generiamo innanzitutto un'immagine utilizzando i modelli di diffusione esistenti; (b) Pianificazione: facciamo uso di Modelli LLM Multi-Modal (MLLM) per identificare gli errori nell'immagine generata espressi in termini di singoli oggetti e delle loro proprietà, e produciamo una sequenza di passaggi correttivi necessari sotto forma di un piano di modifica; (c) Modifica: facciamo uso di modelli di modifica di immagini guidati da testo esistenti per eseguire sequenzialmente il nostro piano di modifica sull'immagine generata per ottenere l'immagine desiderata che sia fedele all'istruzione originale. Il nostro approccio trae forza dal fatto che è modulare per natura, non richiede addestramento e può essere applicato su qualsiasi combinazione di modelli di generazione e modifica di immagini. Come contributo aggiuntivo, sviluppiamo anche un modello in grado di modifiche compositive, che aiuta ulteriormente a migliorare la precisione complessiva del nostro approccio proposto. Il nostro metodo scambia flessibilmente il tempo di inferenza con le prestazioni sui prompt di testo compositivi. Effettuiamo una valutazione sperimentale approfondita su 3 benchmark e 10 modelli T2I, inclusi DALLE-3 e il più recente - SD-3.5-Large. Il nostro approccio non solo migliora le prestazioni dei modelli SOTA, fino a 3 punti percentuali, ma riduce anche il divario di prestazioni tra modelli più deboli e più forti.
English
Text-to-image (T2I) generation has seen significant progress with diffusion models, enabling generation of photo-realistic images from text prompts. Despite this progress, existing methods still face challenges in following complex text prompts, especially those requiring compositional and multi-step reasoning. Given such complex instructions, SOTA models often make mistakes in faithfully modeling object attributes, and relationships among them. In this work, we present an alternate paradigm for T2I synthesis, decomposing the task of complex multi-step generation into three steps, (a) Generate: we first generate an image using existing diffusion models (b) Plan: we make use of Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image expressed in terms of individual objects and their properties, and produce a sequence of corrective steps required in the form of an edit-plan. (c) Edit: we make use of an existing text-guided image editing models to sequentially execute our edit-plan over the generated image to get the desired image which is faithful to the original instruction. Our approach derives its strength from the fact that it is modular in nature, is training free, and can be applied over any combination of image generation and editing models. As an added contribution, we also develop a model capable of compositional editing, which further helps improve the overall accuracy of our proposed approach. Our method flexibly trades inference time compute with performance on compositional text prompts. We perform extensive experimental evaluation across 3 benchmarks and 10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach not only improves the performance of the SOTA models, by upto 3 points, it also reduces the performance gap between weaker and stronger models. https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}

Summary

AI-Generated Summary

PDF42December 11, 2024