SmoothCache : Une technique universelle d'accélération de l'inférence pour les transformateurs de diffusion

Résumé

Les Transformateurs de Diffusion (DiT) se sont imposés comme des modèles génératifs puissants pour diverses tâches, notamment la synthèse d'images, de vidéos et de discours. Cependant, leur processus d'inférence reste coûteux en termes de calcul en raison de l'évaluation répétée des modules d'attention et de propagation avant gourmands en ressources. Pour remédier à cela, nous introduisons SmoothCache, une technique d'accélération de l'inférence indépendante du modèle pour les architectures DiT. SmoothCache exploite la haute similarité observée entre les sorties de couche à travers les pas de diffusion adjacents. En analysant les erreurs de représentation par couche à partir d'un petit ensemble de calibration, SmoothCache met en cache de manière adaptative et réutilise les caractéristiques clés lors de l'inférence. Nos expériences montrent que SmoothCache permet d'atteindre une accélération de 8 % à 71 % tout en maintenant voire en améliorant la qualité de génération à travers diverses modalités. Nous démontrons son efficacité sur DiT-XL pour la génération d'images, Open-Sora pour la conversion texte-vidéo, et Stable Audio Open pour la conversion texte-audio, mettant en lumière son potentiel pour permettre des applications en temps réel et élargir l'accessibilité des puissants modèles DiT.

English

Diffusion Transformers (DiT) have emerged as powerful generative models for various tasks, including image, video, and speech synthesis. However, their inference process remains computationally expensive due to the repeated evaluation of resource-intensive attention and feed-forward modules. To address this, we introduce SmoothCache, a model-agnostic inference acceleration technique for DiT architectures. SmoothCache leverages the observed high similarity between layer outputs across adjacent diffusion timesteps. By analyzing layer-wise representation errors from a small calibration set, SmoothCache adaptively caches and reuses key features during inference. Our experiments demonstrate that SmoothCache achieves 8% to 71% speed up while maintaining or even improving generation quality across diverse modalities. We showcase its effectiveness on DiT-XL for image generation, Open-Sora for text-to-video, and Stable Audio Open for text-to-audio, highlighting its potential to enable real-time applications and broaden the accessibility of powerful DiT models.

SmoothCache : Une technique universelle d'accélération de l'inférence pour les transformateurs de diffusion

SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers

Résumé

Summary

Support