ChatPaper.aiChatPaper

디퓨전 트랜스포머를 위한 지역 적응형 샘플링

Region-Adaptive Sampling for Diffusion Transformers

February 14, 2025
저자: Ziming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang
cs.AI

초록

확산 모델(DMs)은 다양한 도메인에서 생성 작업을 위한 주요 선택지로 자리 잡았습니다. 그러나 이러한 모델들은 다수의 순차적 순방향 패스에 의존하기 때문에 실시간 성능이 크게 제한됩니다. 기존의 가속화 방법들은 주로 샘플링 단계 수를 줄이거나 중간 결과를 재사용하는 데 초점을 맞추었으며, 컨볼루션 U-Net 구조의 제약으로 인해 이미지 내 공간적 영역 간의 변이를 활용하지 못했습니다. 우리는 Diffusion Transformers(DiTs)의 가변 토큰 수 처리 유연성을 활용하여, DiT 모델의 초점에 따라 이미지 내 영역에 서로 다른 샘플링 비율을 동적으로 할당하는 새로운 훈련 불필요 샘플링 전략인 RAS를 제안합니다. 우리의 핵심 관찰은 각 샘플링 단계에서 모델이 의미론적으로 중요한 영역에 집중하며, 이러한 초점 영역이 연속된 단계 간에 강한 연속성을 보인다는 것입니다. 이 통찰을 바탕으로 RAS는 현재 초점이 맞춰진 영역만 업데이트하고, 다른 영역은 이전 단계의 캐시된 노이즈를 사용하여 업데이트합니다. 모델의 초점은 우리가 관찰한 시간적 일관성을 활용하여 이전 단계의 출력을 기반으로 결정됩니다. 우리는 RAS를 Stable Diffusion 3과 Lumina-Next-T2I에서 평가하여 각각 최대 2.36배와 2.51배의 속도 향상을 달성했으며, 생성 품질의 저하를 최소화했습니다. 또한, 사용자 연구 결과 RAS는 인간 평가에서 비슷한 품질을 제공하면서 1.6배의 속도 향상을 달성한 것으로 나타났습니다. 우리의 접근 방식은 더 효율적인 Diffusion Transformers를 위한 중요한 진전을 이루며, 실시간 애플리케이션에서의 잠재력을 강화합니다.
English
Diffusion models (DMs) have become the leading choice for generative tasks across diverse domains. However, their reliance on multiple sequential forward passes significantly limits real-time performance. Previous acceleration methods have primarily focused on reducing the number of sampling steps or reusing intermediate results, failing to leverage variations across spatial regions within the image due to the constraints of convolutional U-Net structures. By harnessing the flexibility of Diffusion Transformers (DiTs) in handling variable number of tokens, we introduce RAS, a novel, training-free sampling strategy that dynamically assigns different sampling ratios to regions within an image based on the focus of the DiT model. Our key observation is that during each sampling step, the model concentrates on semantically meaningful regions, and these areas of focus exhibit strong continuity across consecutive steps. Leveraging this insight, RAS updates only the regions currently in focus, while other regions are updated using cached noise from the previous step. The model's focus is determined based on the output from the preceding step, capitalizing on the temporal consistency we observed. We evaluate RAS on Stable Diffusion 3 and Lumina-Next-T2I, achieving speedups up to 2.36x and 2.51x, respectively, with minimal degradation in generation quality. Additionally, a user study reveals that RAS delivers comparable qualities under human evaluation while achieving a 1.6x speedup. Our approach makes a significant step towards more efficient diffusion transformers, enhancing their potential for real-time applications.

Summary

AI-Generated Summary

PDF523February 17, 2025