FasterCache: Accelerazione del Modello di Diffusione Video Senza Addestramento con Alta Qualità
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality
October 25, 2024
Autori: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong
cs.AI
Abstract
In questo articolo, presentiamo \textit{FasterCache}, una nuova strategia senza addestramento progettata per accelerare l'inferenza dei modelli di diffusione video con generazione di alta qualità. Analizzando i metodi basati su cache esistenti, osserviamo che il riutilizzo diretto delle caratteristiche dei passaggi adiacenti degrada la qualità del video a causa della perdita di variazioni sottili. Effettuiamo inoltre un'indagine pionieristica sul potenziale di accelerazione della guida senza classificatore (CFG) e riveliamo una significativa ridondanza tra le caratteristiche condizionali e incondizionali nello stesso passaggio temporale. Approfittando di queste osservazioni, introduciamo FasterCache per accelerare in modo sostanziale la generazione di video basata sulla diffusione. Le nostre principali contribuzioni includono una strategia dinamica di riutilizzo delle caratteristiche che preserva sia la distinzione delle caratteristiche che la continuità temporale, e CFG-Cache che ottimizza il riutilizzo delle uscite condizionali e incondizionali per migliorare ulteriormente la velocità di inferenza senza compromettere la qualità del video. Valutiamo empiricamente FasterCache su modelli di diffusione video recenti. I risultati sperimentali mostrano che FasterCache può accelerare significativamente la generazione di video (ad esempio, un aumento di velocità del 1,67 volte su Vchitect-2.0) mantenendo una qualità del video paragonabile al basale, e superando costantemente i metodi esistenti sia nella velocità di inferenza che nella qualità del video.
English
In this paper, we present \textit{FasterCache}, a novel
training-free strategy designed to accelerate the inference of video diffusion
models with high-quality generation. By analyzing existing cache-based methods,
we observe that directly reusing adjacent-step features degrades video
quality due to the loss of subtle variations. We further perform a pioneering
investigation of the acceleration potential of classifier-free guidance (CFG)
and reveal significant redundancy between conditional and unconditional
features within the same timestep. Capitalizing on these observations, we
introduce FasterCache to substantially accelerate diffusion-based video
generation. Our key contributions include a dynamic feature reuse strategy that
preserves both feature distinction and temporal continuity, and CFG-Cache which
optimizes the reuse of conditional and unconditional outputs to further enhance
inference speed without compromising video quality. We empirically evaluate
FasterCache on recent video diffusion models. Experimental results show that
FasterCache can significantly accelerate video generation (\eg 1.67times
speedup on Vchitect-2.0) while keeping video quality comparable to the
baseline, and consistently outperform existing methods in both inference speed
and video quality.Summary
AI-Generated Summary