FasterCache: Beschleunigung von Video-Diffusionsmodellen ohne Training mit hoher Qualität
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality
October 25, 2024
Autoren: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong
cs.AI
Zusammenfassung
In diesem Paper präsentieren wir \textit{FasterCache}, eine neuartige, trainingsfreie Strategie, die darauf abzielt, die Inferenz von Video-Diffusionsmodellen mit hochwertiger Generierung zu beschleunigen. Durch die Analyse bestehender cache-basierter Methoden stellen wir fest, dass die direkte Wiederverwendung von Merkmalen aus benachbarten Schritten die Videoqualität aufgrund des Verlusts subtiler Variationen beeinträchtigt. Wir führen eine wegweisende Untersuchung des Beschleunigungspotenzials von klassifiziererfreier Führung (CFG) durch und enthüllen eine signifikante Redundanz zwischen bedingten und unbedingten Merkmalen innerhalb desselben Zeitschritts. Basierend auf diesen Beobachtungen stellen wir FasterCache vor, um die Generierung von Video auf Basis von Diffusion wesentlich zu beschleunigen. Unsere Hauptbeiträge umfassen eine dynamische Merkmalswiederverwendungsstrategie, die sowohl die Merkmalsunterscheidung als auch die zeitliche Kontinuität bewahrt, und CFG-Cache, das die Wiederverwendung von bedingten und unbedingten Ausgaben optimiert, um die Inferenzgeschwindigkeit weiter zu steigern, ohne die Videoqualität zu beeinträchtigen. Wir evaluieren FasterCache empirisch anhand aktueller Video-Diffusionsmodelle. Experimentelle Ergebnisse zeigen, dass FasterCache die Video-Generierung signifikant beschleunigen kann (z. B. 1,67-fache Beschleunigung bei Vchitect-2.0), während die Videoqualität vergleichbar mit dem Baseline-Modell bleibt und bestehende Methoden sowohl in der Inferenzgeschwindigkeit als auch in der Videoqualität kontinuierlich übertrifft.
English
In this paper, we present \textit{FasterCache}, a novel
training-free strategy designed to accelerate the inference of video diffusion
models with high-quality generation. By analyzing existing cache-based methods,
we observe that directly reusing adjacent-step features degrades video
quality due to the loss of subtle variations. We further perform a pioneering
investigation of the acceleration potential of classifier-free guidance (CFG)
and reveal significant redundancy between conditional and unconditional
features within the same timestep. Capitalizing on these observations, we
introduce FasterCache to substantially accelerate diffusion-based video
generation. Our key contributions include a dynamic feature reuse strategy that
preserves both feature distinction and temporal continuity, and CFG-Cache which
optimizes the reuse of conditional and unconditional outputs to further enhance
inference speed without compromising video quality. We empirically evaluate
FasterCache on recent video diffusion models. Experimental results show that
FasterCache can significantly accelerate video generation (\eg 1.67times
speedup on Vchitect-2.0) while keeping video quality comparable to the
baseline, and consistently outperform existing methods in both inference speed
and video quality.Summary
AI-Generated Summary