SmoothCache : Une technique universelle d'accélération de l'inférence pour les transformateurs de diffusion
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers
November 15, 2024
Auteurs: Joseph Liu, Joshua Geddes, Ziyu Guo, Haomiao Jiang, Mahesh Kumar Nandwana
cs.AI
Résumé
Les Transformateurs de Diffusion (DiT) se sont imposés comme des modèles génératifs puissants pour diverses tâches, notamment la synthèse d'images, de vidéos et de discours. Cependant, leur processus d'inférence reste coûteux en termes de calcul en raison de l'évaluation répétée des modules d'attention et de propagation avant gourmands en ressources. Pour remédier à cela, nous introduisons SmoothCache, une technique d'accélération de l'inférence indépendante du modèle pour les architectures DiT. SmoothCache exploite la haute similarité observée entre les sorties de couche à travers les pas de diffusion adjacents. En analysant les erreurs de représentation par couche à partir d'un petit ensemble de calibration, SmoothCache met en cache de manière adaptative et réutilise les caractéristiques clés lors de l'inférence. Nos expériences montrent que SmoothCache permet d'atteindre une accélération de 8 % à 71 % tout en maintenant voire en améliorant la qualité de génération à travers diverses modalités. Nous démontrons son efficacité sur DiT-XL pour la génération d'images, Open-Sora pour la conversion texte-vidéo, et Stable Audio Open pour la conversion texte-audio, mettant en lumière son potentiel pour permettre des applications en temps réel et élargir l'accessibilité des puissants modèles DiT.
English
Diffusion Transformers (DiT) have emerged as powerful generative models for
various tasks, including image, video, and speech synthesis. However, their
inference process remains computationally expensive due to the repeated
evaluation of resource-intensive attention and feed-forward modules. To address
this, we introduce SmoothCache, a model-agnostic inference acceleration
technique for DiT architectures. SmoothCache leverages the observed high
similarity between layer outputs across adjacent diffusion timesteps. By
analyzing layer-wise representation errors from a small calibration set,
SmoothCache adaptively caches and reuses key features during inference. Our
experiments demonstrate that SmoothCache achieves 8% to 71% speed up while
maintaining or even improving generation quality across diverse modalities. We
showcase its effectiveness on DiT-XL for image generation, Open-Sora for
text-to-video, and Stable Audio Open for text-to-audio, highlighting its
potential to enable real-time applications and broaden the accessibility of
powerful DiT models.Summary
AI-Generated Summary