GrounDiT: 소음이 있는 패치 이식을 통한 Grounding Diffusion Transformer

GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

October 27, 2024
저자: Phillip Y. Lee, Taehoon Yoon, Minhyuk Sung
cs.AI

초록

우리는 디퓨전 트랜스포머(DiT)를 사용한 이미지 생성을 위한 훈련 없이 공간 기반 기법을 소개합니다. 바운딩 박스를 활용한 공간 기반 기법은 이미지 생성에서 사용자 제어를 향상시킬 수 있는 간단하고 다재다능한 특징으로 주목받고 있습니다. 그러나 이전의 훈련 없는 접근 방식은 종종 사용자가 개별 바운딩 박스를 정밀하게 제어하기 어렵게 만들어주는 사용자 정의 손실 함수로부터의 역확산을 통해 역확산 과정 중에 잡음이 있는 이미지를 업데이트하는 데 의존합니다. 본 연구에서는 트랜스포머 아키텍처의 유연성을 활용하여 DiT가 각 바운딩 박스에 해당하는 잡음이 있는 패치를 생성할 수 있음을 입증합니다. 이를 통해 대상 객체를 완전히 인코딩하고 각 영역에 대한 세밀한 제어를 가능하게 합니다. 우리의 방법은 DiT의 흥미로운 특성인 의미 공유에 기반을 두고 있습니다. 의미 공유로 인해 작은 패치가 생성 가능한 크기의 이미지와 함께 공동으로 노이즈 제거되면 두 가지가 "의미적 복제본"이 됩니다. 각 패치는 생성 과정의 자체 분기에서 노이즈 제거되고 각 타임스텝에서 원본 잡음이 있는 이미지의 해당 영역으로 이식되어 각 바운딩 박스에 대한 견고한 공간 기반을 제공합니다. HRS 및 DrawBench 벤치마크 실험에서 이전의 훈련 없는 공간 기반 접근 방식과 비교하여 최첨단의 성능을 달성했습니다.
English
We introduce a novel training-free spatial grounding technique for text-to-image generation using Diffusion Transformers (DiT). Spatial grounding with bounding boxes has gained attention for its simplicity and versatility, allowing for enhanced user control in image generation. However, prior training-free approaches often rely on updating the noisy image during the reverse diffusion process via backpropagation from custom loss functions, which frequently struggle to provide precise control over individual bounding boxes. In this work, we leverage the flexibility of the Transformer architecture, demonstrating that DiT can generate noisy patches corresponding to each bounding box, fully encoding the target object and allowing for fine-grained control over each region. Our approach builds on an intriguing property of DiT, which we refer to as semantic sharing. Due to semantic sharing, when a smaller patch is jointly denoised alongside a generatable-size image, the two become "semantic clones". Each patch is denoised in its own branch of the generation process and then transplanted into the corresponding region of the original noisy image at each timestep, resulting in robust spatial grounding for each bounding box. In our experiments on the HRS and DrawBench benchmarks, we achieve state-of-the-art performance compared to previous training-free spatial grounding approaches.

Summary

AI-Generated Summary

PDF132November 16, 2024