Mise en cache adaptative pour une génération vidéo plus rapide avec des transformateurs de diffusion
Adaptive Caching for Faster Video Generation with Diffusion Transformers
November 4, 2024
Auteurs: Kumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie
cs.AI
Résumé
Générer des vidéos haute fidélité temporellement cohérentes peut être coûteux en termes de calcul, surtout sur de longues périodes temporelles. Les Transformateurs de Diffusion plus récents (DiTs) - malgré les progrès significatifs réalisés dans ce contexte - ont seulement exacerbé de tels défis car ils reposent sur des modèles plus grands et des mécanismes d'attention plus lourds, entraînant des vitesses d'inférence plus lentes. Dans cet article, nous introduisons une méthode sans entraînement pour accélérer les DiTs vidéo, appelée Mise en Cache Adaptative (AdaCache), motivée par le fait que "toutes les vidéos ne sont pas créées égales" : cela signifie que certaines vidéos nécessitent moins d'étapes de débruitage pour atteindre une qualité raisonnable que d'autres. Sur cette base, nous mettons en cache non seulement les calculs à travers le processus de diffusion, mais concevons également un calendrier de mise en cache adapté à chaque génération de vidéo, maximisant le compromis qualité-latence. Nous introduisons en outre un schéma de Régularisation du Mouvement (MoReg) pour utiliser les informations vidéo au sein d'AdaCache, contrôlant essentiellement l'allocation de calcul en fonction du contenu de mouvement. Dans l'ensemble, nos contributions plug-and-play offrent des accélérations significatives de l'inférence (par exemple, jusqu'à 4,7 fois sur la génération vidéo Open-Sora 720p - 2s) sans sacrifier la qualité de génération, à travers plusieurs références de DiT vidéo.
English
Generating temporally-consistent high-fidelity videos can be computationally
expensive, especially over longer temporal spans. More-recent Diffusion
Transformers (DiTs) -- despite making significant headway in this context --
have only heightened such challenges as they rely on larger models and heavier
attention mechanisms, resulting in slower inference speeds. In this paper, we
introduce a training-free method to accelerate video DiTs, termed Adaptive
Caching (AdaCache), which is motivated by the fact that "not all videos are
created equal": meaning, some videos require fewer denoising steps to attain a
reasonable quality than others. Building on this, we not only cache
computations through the diffusion process, but also devise a caching schedule
tailored to each video generation, maximizing the quality-latency trade-off. We
further introduce a Motion Regularization (MoReg) scheme to utilize video
information within AdaCache, essentially controlling the compute allocation
based on motion content. Altogether, our plug-and-play contributions grant
significant inference speedups (e.g. up to 4.7x on Open-Sora 720p - 2s video
generation) without sacrificing the generation quality, across multiple video
DiT baselines.Summary
AI-Generated Summary