ChatPaper.aiChatPaper

GraPE: 구성적 T2I 합성을 위한 생성-계획-편집 프레임워크

GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

December 8, 2024
저자: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI

초록

텍스트 대 이미지 (T2I) 생성은 확산 모델로 상당한 진전을 보았으며, 텍스트 프롬프트로부터 사진과 유사한 이미지를 생성할 수 있게 되었습니다. 이러한 진전에도 불구하고, 기존 방법은 여전히 복합하고 다단계 추론이 필요한 복잡한 텍스트 프롬프트에 대한 도전에 직면하고 있습니다. 이러한 복잡한 지침에 대해 SOTA 모델은 종종 물체 속성 및 그들 사이의 관계를 정확하게 모델링하는 데 오류를 범합니다. 본 연구에서는 T2I 합성을 위한 대안적 패러다임을 제시하며, 복합 다단계 생성 작업을 세 단계로 분해합니다. (a) 생성: 우리는 먼저 기존 확산 모델을 사용하여 이미지를 생성합니다. (b) 계획: 우리는 Multi-Modal LLMs (MLLMs)를 활용하여 생성된 이미지의 오류를 개별 객체 및 속성으로 표현하고 수정 계획 형태로 필요한 수정 단계의 일련의 단계를 생성합니다. (c) 편집: 우리는 기존의 텍스트 안내 이미지 편집 모델을 활용하여 생성된 이미지에 연속적으로 수정 계획을 실행하여 원하는 이미지를 얻습니다. 이 접근 방식은 모듈식이며 훈련이 필요 없으며, 이미지 생성 및 편집 모델의 모든 조합에 적용할 수 있다는 장점을 가지고 있습니다. 추가적인 기여로, 우리는 복합적 편집이 가능한 모델을 개발하여 제안된 방법의 전반적인 정확도를 향상시키는 데 도움이 됩니다. 우리의 방법은 추론 시간 계산과 복합적 텍스트 프롬프트에 대한 성능을 유연하게 교환합니다. DALLE-3 및 최신 버전인 SD-3.5-Large를 포함한 10가지 T2I 모델 및 3가지 벤치마크에서 광범위한 실험적 평가를 수행합니다. 우리의 방법은 SOTA 모델의 성능을 최대 3 포인트까지 향상시킬 뿐만 아니라, 약한 모델과 강한 모델 간의 성능 차이를 줄이는 데 도움이 됩니다.
English
Text-to-image (T2I) generation has seen significant progress with diffusion models, enabling generation of photo-realistic images from text prompts. Despite this progress, existing methods still face challenges in following complex text prompts, especially those requiring compositional and multi-step reasoning. Given such complex instructions, SOTA models often make mistakes in faithfully modeling object attributes, and relationships among them. In this work, we present an alternate paradigm for T2I synthesis, decomposing the task of complex multi-step generation into three steps, (a) Generate: we first generate an image using existing diffusion models (b) Plan: we make use of Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image expressed in terms of individual objects and their properties, and produce a sequence of corrective steps required in the form of an edit-plan. (c) Edit: we make use of an existing text-guided image editing models to sequentially execute our edit-plan over the generated image to get the desired image which is faithful to the original instruction. Our approach derives its strength from the fact that it is modular in nature, is training free, and can be applied over any combination of image generation and editing models. As an added contribution, we also develop a model capable of compositional editing, which further helps improve the overall accuracy of our proposed approach. Our method flexibly trades inference time compute with performance on compositional text prompts. We perform extensive experimental evaluation across 3 benchmarks and 10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach not only improves the performance of the SOTA models, by upto 3 points, it also reduces the performance gap between weaker and stronger models. https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}

Summary

AI-Generated Summary

PDF42December 11, 2024