GrounDiT : Transformer de Diffusion d'Ancrage via Transplantation de Patchs Bruyants
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation
October 27, 2024
Auteurs: Phillip Y. Lee, Taehoon Yoon, Minhyuk Sung
cs.AI
Résumé
Nous introduisons une nouvelle technique de localisation spatiale sans entraînement pour la génération de texte vers image en utilisant les Transformateurs de Diffusion (DiT). La localisation spatiale avec des boîtes englobantes a attiré l'attention pour sa simplicité et sa polyvalence, permettant un contrôle utilisateur amélioré dans la génération d'images. Cependant, les approches antérieures sans entraînement reposent souvent sur la mise à jour de l'image bruitée pendant le processus de diffusion inverse via la rétropropagation à partir de fonctions de perte personnalisées, qui ont souvent du mal à fournir un contrôle précis sur chaque boîte englobante individuelle. Dans ce travail, nous exploitons la flexibilité de l'architecture Transformer, démontrant que DiT peut générer des patchs bruités correspondant à chaque boîte englobante, encodant entièrement l'objet cible et permettant un contrôle détaillé sur chaque région. Notre approche s'appuie sur une propriété intrigante de DiT, que nous appelons partage sémantique. En raison du partage sémantique, lorsqu'un patch plus petit est débruité conjointement avec une image de taille générable, les deux deviennent des "clones sémantiques". Chaque patch est débruité dans sa propre branche du processus de génération, puis transplanté dans la région correspondante de l'image bruitée originale à chaque pas de temps, ce qui permet une localisation spatiale robuste pour chaque boîte englobante. Dans nos expériences sur les référentiels HRS et DrawBench, nous obtenons des performances de pointe par rapport aux approches antérieures de localisation spatiale sans entraînement.
English
We introduce a novel training-free spatial grounding technique for
text-to-image generation using Diffusion Transformers (DiT). Spatial grounding
with bounding boxes has gained attention for its simplicity and versatility,
allowing for enhanced user control in image generation. However, prior
training-free approaches often rely on updating the noisy image during the
reverse diffusion process via backpropagation from custom loss functions, which
frequently struggle to provide precise control over individual bounding boxes.
In this work, we leverage the flexibility of the Transformer architecture,
demonstrating that DiT can generate noisy patches corresponding to each
bounding box, fully encoding the target object and allowing for fine-grained
control over each region. Our approach builds on an intriguing property of DiT,
which we refer to as semantic sharing. Due to semantic sharing, when a smaller
patch is jointly denoised alongside a generatable-size image, the two become
"semantic clones". Each patch is denoised in its own branch of the generation
process and then transplanted into the corresponding region of the original
noisy image at each timestep, resulting in robust spatial grounding for each
bounding box. In our experiments on the HRS and DrawBench benchmarks, we
achieve state-of-the-art performance compared to previous training-free spatial
grounding approaches.Summary
AI-Generated Summary