SmoothCache: 확산 트랜스포머를 위한 범용 추론 가속 기술

SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers

November 15, 2024
저자: Joseph Liu, Joshua Geddes, Ziyu Guo, Haomiao Jiang, Mahesh Kumar Nandwana
cs.AI

초록

확산 트랜스포머(Diffusion Transformers, DiT)는 이미지, 비디오, 음성 합성을 포함한 다양한 작업에 대한 강력한 생성 모델로 등장했습니다. 그러나 반복적으로 자원 집약적인 어텐션과 피드포워드 모듈을 평가해야 하기 때문에 추론 과정은 계산적으로 비용이 많이 듭니다. 이를 해결하기 위해 우리는 DiT 아키텍처를 위한 모델에 중립적인 추론 가속화 기술인 SmoothCache를 소개합니다. SmoothCache는 인접한 확산 타임스텝 간의 레이어 출력 간의 높은 유사성을 활용합니다. 작은 보정 세트에서 레이어별 표현 오차를 분석함으로써 SmoothCache는 추론 중에 핵심 기능을 캐시하고 재사용합니다. 우리의 실험은 SmoothCache가 다양한 모달리티에서 세대 품질을 유지하거나 향상시키면서 8%에서 71%의 속도 향상을 달성한다는 것을 보여줍니다. 우리는 이미지 생성을 위한 DiT-XL, 텍스트에서 비디오로의 Open-Sora, 텍스트에서 오디오로의 Stable Audio Open에서 SmoothCache의 효과를 보여주며, 강력한 DiT 모델의 실시간 응용 프로그램을 가능하게 하고 넓은 접근성을 확대할 수 있는 잠재력을 강조합니다.
English
Diffusion Transformers (DiT) have emerged as powerful generative models for various tasks, including image, video, and speech synthesis. However, their inference process remains computationally expensive due to the repeated evaluation of resource-intensive attention and feed-forward modules. To address this, we introduce SmoothCache, a model-agnostic inference acceleration technique for DiT architectures. SmoothCache leverages the observed high similarity between layer outputs across adjacent diffusion timesteps. By analyzing layer-wise representation errors from a small calibration set, SmoothCache adaptively caches and reuses key features during inference. Our experiments demonstrate that SmoothCache achieves 8% to 71% speed up while maintaining or even improving generation quality across diverse modalities. We showcase its effectiveness on DiT-XL for image generation, Open-Sora for text-to-video, and Stable Audio Open for text-to-audio, highlighting its potential to enable real-time applications and broaden the accessibility of powerful DiT models.

Summary

AI-Generated Summary

PDF82November 19, 2024