Training-vrije Regionale Aanmoediging voor Diffusie-Transformers
Training-free Regional Prompting for Diffusion Transformers
November 4, 2024
Auteurs: Anthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang
cs.AI
Samenvatting
Diffusiemodellen hebben uitstekende mogelijkheden aangetoond op het gebied van tekst-naar-afbeelding generatie. Hun semantisch begrip (d.w.z. prompt-opvolging) is ook aanzienlijk verbeterd met grote taalmodellen (bijv. T5, Llama). Echter, bestaande modellen kunnen lang en complex tekstprompts niet perfect verwerken, vooral wanneer de tekstprompts verschillende objecten met talrijke kenmerken en onderlinge ruimtelijke relaties bevatten. Hoewel er veel regionale prompting methoden zijn voorgesteld voor op UNet gebaseerde modellen (SD1.5, SDXL), zijn er nog geen implementaties gebaseerd op de recente Diffusion Transformer (DiT) architectuur, zoals SD3 en FLUX.1. In dit rapport stellen we regionale prompting voor FLUX.1 voor op basis van aandachtsmanipulatie, waardoor DiT in staat is om fijnmazige compositionele tekst-naar-afbeelding generatiecapaciteit te hebben op een trainingvrije manier. De code is beschikbaar op https://github.com/antonioo-c/Regional-Prompting-FLUX.
English
Diffusion models have demonstrated excellent capabilities in text-to-image
generation. Their semantic understanding (i.e., prompt following) ability has
also been greatly improved with large language models (e.g., T5, Llama).
However, existing models cannot perfectly handle long and complex text prompts,
especially when the text prompts contain various objects with numerous
attributes and interrelated spatial relationships. While many regional
prompting methods have been proposed for UNet-based models (SD1.5, SDXL), but
there are still no implementations based on the recent Diffusion Transformer
(DiT) architecture, such as SD3 and FLUX.1.In this report, we propose and
implement regional prompting for FLUX.1 based on attention manipulation, which
enables DiT with fined-grained compositional text-to-image generation
capability in a training-free manner. Code is available at
https://github.com/antonioo-c/Regional-Prompting-FLUX.Summary
AI-Generated Summary