Promozione regionale senza addestramento per i trasformatori a diffusione
Training-free Regional Prompting for Diffusion Transformers
November 4, 2024
Autori: Anthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang
cs.AI
Abstract
I modelli di diffusione hanno dimostrato eccellenti capacità nella generazione di testo-immagine. La loro capacità di comprensione semantica (cioè, prompt successivi) è stata notevolmente migliorata anche con grandi modelli linguistici (ad es., T5, Llama). Tuttavia, i modelli esistenti non riescono a gestire perfettamente prompt di testo lunghi e complessi, specialmente quando i prompt di testo contengono vari oggetti con numerosi attributi e relazioni spaziali interconnesse. Sebbene siano stati proposti molti metodi di prompting regionale per modelli basati su UNet (SD1.5, SDXL), non ci sono ancora implementazioni basate sull'architettura del Transformer di Diffusione (DiT) recente, come SD3 e FLUX. In questo rapporto, proponiamo e implementiamo il prompting regionale per FLUX.1 basato sulla manipolazione dell'attenzione, che abilita DiT con la capacità di generazione di testo-immagine composito a grana fine in modo privo di addestramento. Il codice è disponibile su https://github.com/antonioo-c/Regional-Prompting-FLUX.
English
Diffusion models have demonstrated excellent capabilities in text-to-image
generation. Their semantic understanding (i.e., prompt following) ability has
also been greatly improved with large language models (e.g., T5, Llama).
However, existing models cannot perfectly handle long and complex text prompts,
especially when the text prompts contain various objects with numerous
attributes and interrelated spatial relationships. While many regional
prompting methods have been proposed for UNet-based models (SD1.5, SDXL), but
there are still no implementations based on the recent Diffusion Transformer
(DiT) architecture, such as SD3 and FLUX.1.In this report, we propose and
implement regional prompting for FLUX.1 based on attention manipulation, which
enables DiT with fined-grained compositional text-to-image generation
capability in a training-free manner. Code is available at
https://github.com/antonioo-c/Regional-Prompting-FLUX.Summary
AI-Generated Summary