GrounDiT: Gronding Diffusie Transformers via Lawaaierige Patch Transplantatie
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation
October 27, 2024
Auteurs: Phillip Y. Lee, Taehoon Yoon, Minhyuk Sung
cs.AI
Samenvatting
We introduceren een nieuwe trainingvrije ruimtelijke verankeringstechniek voor tekst-naar-afbeelding generatie met behulp van Diffusion Transformers (DiT). Ruimtelijke verankering met begrenzingskaders heeft aandacht gekregen vanwege de eenvoud en veelzijdigheid, waardoor verbeterde gebruikerscontrole mogelijk is bij afbeeldingsgeneratie. Echter vertrouwen eerdere trainingvrije benaderingen vaak op het bijwerken van de ruisachtige afbeelding tijdens het omgekeerde diffusieproces via backpropagatie van aangepaste verliesfuncties, die vaak moeite hebben om precieze controle over individuele begrenzingskaders te bieden. In dit werk maken we gebruik van de flexibiliteit van de Transformer-architectuur, waarbij we aantonen dat DiT ruisachtige patches kan genereren die overeenkomen met elk begrenzingskader, waarbij het doelobject volledig wordt gecodeerd en fijnmazige controle over elk gebied mogelijk wordt gemaakt. Onze aanpak bouwt voort op een intrigerende eigenschap van DiT, die we semantische deling noemen. Door semantische deling, wanneer een kleinere patch gelijktijdig wordt gedenoiseerd naast een generatieve-grootte afbeelding, worden de twee "semantische klonen". Elke patch wordt gedenoiseerd in zijn eigen tak van het generatieproces en vervolgens getransplanteerd naar het overeenkomstige gebied van de oorspronkelijke ruisachtige afbeelding bij elke tijdstap, resulterend in robuuste ruimtelijke verankering voor elk begrenzingskader. In onze experimenten op de HRS en DrawBench benchmarks behalen we state-of-the-art prestaties in vergelijking met eerdere trainingvrije ruimtelijke verankering benaderingen.
English
We introduce a novel training-free spatial grounding technique for
text-to-image generation using Diffusion Transformers (DiT). Spatial grounding
with bounding boxes has gained attention for its simplicity and versatility,
allowing for enhanced user control in image generation. However, prior
training-free approaches often rely on updating the noisy image during the
reverse diffusion process via backpropagation from custom loss functions, which
frequently struggle to provide precise control over individual bounding boxes.
In this work, we leverage the flexibility of the Transformer architecture,
demonstrating that DiT can generate noisy patches corresponding to each
bounding box, fully encoding the target object and allowing for fine-grained
control over each region. Our approach builds on an intriguing property of DiT,
which we refer to as semantic sharing. Due to semantic sharing, when a smaller
patch is jointly denoised alongside a generatable-size image, the two become
"semantic clones". Each patch is denoised in its own branch of the generation
process and then transplanted into the corresponding region of the original
noisy image at each timestep, resulting in robust spatial grounding for each
bounding box. In our experiments on the HRS and DrawBench benchmarks, we
achieve state-of-the-art performance compared to previous training-free spatial
grounding approaches.Summary
AI-Generated Summary