FasterCache: Aceleração de Modelo de Difusão de Vídeo sem Treinamento com Alta Qualidade
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality
October 25, 2024
Autores: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong
cs.AI
Resumo
Neste artigo, apresentamos o \textit{FasterCache}, uma estratégia inovadora sem treinamento projetada para acelerar a inferência de modelos de difusão de vídeo com geração de alta qualidade. Ao analisar os métodos existentes baseados em cache, observamos que o reuso direto de características de passos adjacentes degrada a qualidade do vídeo devido à perda de variações sutis. Realizamos uma investigação pioneira do potencial de aceleração da orientação sem classificador (CFG) e revelamos uma redundância significativa entre características condicionais e incondicionais dentro do mesmo passo de tempo. Capitalizando essas observações, introduzimos o FasterCache para acelerar substancialmente a geração de vídeo baseada em difusão. Nossas principais contribuições incluem uma estratégia dinâmica de reuso de características que preserva tanto a distinção de características quanto a continuidade temporal, e o CFG-Cache que otimiza o reuso das saídas condicionais e incondicionais para aprimorar ainda mais a velocidade de inferência sem comprometer a qualidade do vídeo. Avaliamos empiricamente o FasterCache em modelos recentes de difusão de vídeo. Os resultados experimentais mostram que o FasterCache pode acelerar significativamente a geração de vídeo (por exemplo, 1,67 vezes mais rápido no Vchitect-2.0) mantendo a qualidade do vídeo comparável ao padrão, e consistentemente superando os métodos existentes tanto em velocidade de inferência quanto em qualidade de vídeo.
English
In this paper, we present \textit{FasterCache}, a novel
training-free strategy designed to accelerate the inference of video diffusion
models with high-quality generation. By analyzing existing cache-based methods,
we observe that directly reusing adjacent-step features degrades video
quality due to the loss of subtle variations. We further perform a pioneering
investigation of the acceleration potential of classifier-free guidance (CFG)
and reveal significant redundancy between conditional and unconditional
features within the same timestep. Capitalizing on these observations, we
introduce FasterCache to substantially accelerate diffusion-based video
generation. Our key contributions include a dynamic feature reuse strategy that
preserves both feature distinction and temporal continuity, and CFG-Cache which
optimizes the reuse of conditional and unconditional outputs to further enhance
inference speed without compromising video quality. We empirically evaluate
FasterCache on recent video diffusion models. Experimental results show that
FasterCache can significantly accelerate video generation (\eg 1.67times
speedup on Vchitect-2.0) while keeping video quality comparable to the
baseline, and consistently outperform existing methods in both inference speed
and video quality.Summary
AI-Generated Summary