Prompts régionaux sans entraînement pour les transformateurs de diffusion
Training-free Regional Prompting for Diffusion Transformers
November 4, 2024
Auteurs: Anthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang
cs.AI
Résumé
Les modèles de diffusion ont démontré d'excellentes capacités en génération de texte vers image. Leur compréhension sémantique (c'est-à-dire, la capacité à suivre une instruction) a également été grandement améliorée avec de grands modèles de langage (par exemple, T5, Llama). Cependant, les modèles existants ne peuvent pas parfaitement gérer des instructions textuelles longues et complexes, surtout lorsque celles-ci contiennent divers objets avec de nombreux attributs et des relations spatiales interdépendantes. Bien que de nombreuses méthodes de guidage régional aient été proposées pour les modèles basés sur UNet (SD1.5, SDXL), il n'y a encore aucune implémentation basée sur l'architecture récente de Transformer de Diffusion (DiT), telle que SD3 et FLUX.1. Dans ce rapport, nous proposons et mettons en œuvre un guidage régional pour FLUX.1 basé sur la manipulation de l'attention, ce qui permet à DiT de générer des images à partir de texte de manière fine et compositionnelle sans nécessiter d'entraînement. Le code est disponible sur https://github.com/antonioo-c/Regional-Prompting-FLUX.
English
Diffusion models have demonstrated excellent capabilities in text-to-image
generation. Their semantic understanding (i.e., prompt following) ability has
also been greatly improved with large language models (e.g., T5, Llama).
However, existing models cannot perfectly handle long and complex text prompts,
especially when the text prompts contain various objects with numerous
attributes and interrelated spatial relationships. While many regional
prompting methods have been proposed for UNet-based models (SD1.5, SDXL), but
there are still no implementations based on the recent Diffusion Transformer
(DiT) architecture, such as SD3 and FLUX.1.In this report, we propose and
implement regional prompting for FLUX.1 based on attention manipulation, which
enables DiT with fined-grained compositional text-to-image generation
capability in a training-free manner. Code is available at
https://github.com/antonioo-c/Regional-Prompting-FLUX.Summary
AI-Generated Summary