FasterCache : Accélération du modèle de diffusion vidéo sans entraînement avec une haute qualité

Résumé

Dans cet article, nous présentons \textit{FasterCache}, une stratégie novatrice sans entraînement conçue pour accélérer l'inférence des modèles de diffusion vidéo avec une génération de haute qualité. En analysant les méthodes existantes basées sur le cache, nous observons que la réutilisation directe des caractéristiques des étapes adjacentes dégrade la qualité vidéo en raison de la perte de variations subtiles. Nous menons ensuite une enquête pionnière sur le potentiel d'accélération du guidage sans classificateur (CFG) et révélons une redondance significative entre les caractéristiques conditionnelles et inconditionnelles au sein de la même étape temporelle. Capitalisant sur ces observations, nous introduisons FasterCache pour accélérer de manière significative la génération vidéo basée sur la diffusion. Nos principales contributions comprennent une stratégie de réutilisation dynamique des caractéristiques qui préserve à la fois la distinction des caractéristiques et la continuité temporelle, et CFG-Cache qui optimise la réutilisation des sorties conditionnelles et inconditionnelles pour améliorer davantage la vitesse d'inférence sans compromettre la qualité vidéo. Nous évaluons empiriquement FasterCache sur des modèles récents de diffusion vidéo. Les résultats expérimentaux montrent que FasterCache peut accélérer de manière significative la génération vidéo (par exemple, un gain de vitesse de 1,67 fois sur Vchitect-2.0) tout en maintenant une qualité vidéo comparable à celle de la référence, et surpasser de manière constante les méthodes existantes à la fois en termes de vitesse d'inférence et de qualité vidéo.

English

In this paper, we present \textit{FasterCache}, a novel training-free strategy designed to accelerate the inference of video diffusion models with high-quality generation. By analyzing existing cache-based methods, we observe that directly reusing adjacent-step features degrades video quality due to the loss of subtle variations. We further perform a pioneering investigation of the acceleration potential of classifier-free guidance (CFG) and reveal significant redundancy between conditional and unconditional features within the same timestep. Capitalizing on these observations, we introduce FasterCache to substantially accelerate diffusion-based video generation. Our key contributions include a dynamic feature reuse strategy that preserves both feature distinction and temporal continuity, and CFG-Cache which optimizes the reuse of conditional and unconditional outputs to further enhance inference speed without compromising video quality. We empirically evaluate FasterCache on recent video diffusion models. Experimental results show that FasterCache can significantly accelerate video generation (\eg 1.67times speedup on Vchitect-2.0) while keeping video quality comparable to the baseline, and consistently outperform existing methods in both inference speed and video quality.

FasterCache : Accélération du modèle de diffusion vidéo sans entraînement avec une haute qualité

FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Résumé

Support