GrounDiT: Trasformatori di Diffusione del Grounding tramite Trapianto di Patch Rumorose
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation
October 27, 2024
Autori: Phillip Y. Lee, Taehoon Yoon, Minhyuk Sung
cs.AI
Abstract
Introduciamo una nuova tecnica di ancoraggio spaziale senza addestramento per la generazione di testo-immagine utilizzando i Trasformatori a Diffusione (DiT). L'ancoraggio spaziale con riquadri delimitatori ha attirato l'attenzione per la sua semplicità e versatilità, consentendo un maggiore controllo dell'utente nella generazione di immagini. Tuttavia, gli approcci precedenti senza addestramento spesso si basano sull'aggiornamento dell'immagine rumorosa durante il processo di diffusione inversa tramite retropropagazione da funzioni di perdita personalizzate, che spesso faticano a fornire un controllo preciso su singoli riquadri delimitatori. In questo lavoro, sfruttiamo la flessibilità dell'architettura del Trasformatore, dimostrando che DiT può generare patch rumorose corrispondenti a ciascun riquadro delimitatore, codificando completamente l'oggetto target e consentendo un controllo dettagliato su ciascuna regione. Il nostro approccio si basa su una proprietà intrigante di DiT, che chiamiamo condivisione semantica. Grazie alla condivisione semantica, quando una patch più piccola viene denoisata insieme a un'immagine di dimensioni generabili, le due diventano "cloni semantici". Ciascuna patch viene denoisata nel proprio ramo del processo di generazione e quindi trapiantata nella regione corrispondente dell'immagine rumorosa originale ad ogni passaggio temporale, ottenendo un ancoraggio spaziale robusto per ciascun riquadro delimitatore. Nei nostri esperimenti sui benchmark HRS e DrawBench, otteniamo prestazioni all'avanguardia rispetto agli approcci precedenti di ancoraggio spaziale senza addestramento.
English
We introduce a novel training-free spatial grounding technique for
text-to-image generation using Diffusion Transformers (DiT). Spatial grounding
with bounding boxes has gained attention for its simplicity and versatility,
allowing for enhanced user control in image generation. However, prior
training-free approaches often rely on updating the noisy image during the
reverse diffusion process via backpropagation from custom loss functions, which
frequently struggle to provide precise control over individual bounding boxes.
In this work, we leverage the flexibility of the Transformer architecture,
demonstrating that DiT can generate noisy patches corresponding to each
bounding box, fully encoding the target object and allowing for fine-grained
control over each region. Our approach builds on an intriguing property of DiT,
which we refer to as semantic sharing. Due to semantic sharing, when a smaller
patch is jointly denoised alongside a generatable-size image, the two become
"semantic clones". Each patch is denoised in its own branch of the generation
process and then transplanted into the corresponding region of the original
noisy image at each timestep, resulting in robust spatial grounding for each
bounding box. In our experiments on the HRS and DrawBench benchmarks, we
achieve state-of-the-art performance compared to previous training-free spatial
grounding approaches.Summary
AI-Generated Summary