FasterCache: Trainingvrije Versnellingsmodel voor Video Diffusie met Hoge Kwaliteit
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality
October 25, 2024
Auteurs: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong
cs.AI
Samenvatting
In dit artikel presenteren we \textit{FasterCache}, een innovatieve strategie zonder training ontworpen om de inferentie van video diffusiemodellen met hoogwaardige generatie te versnellen. Door de analyse van bestaande cache-gebaseerde methoden, observeren we dat het direct hergebruiken van kenmerken van aangrenzende stappen de videokwaliteit vermindert als gevolg van het verlies van subtiele variaties. We voeren verder een baanbrekend onderzoek uit naar het versnellingspotentieel van classifier-vrije begeleiding (CFG) en onthullen significante redundantie tussen conditionele en onvoorwaardelijke kenmerken binnen dezelfde tijdstap. Profiterend van deze observaties introduceren we FasterCache om aanzienlijk de generatie van video's op basis van diffusie te versnellen. Onze belangrijkste bijdragen omvatten een dynamische kenmerkhergebruikstrategie die zowel kenmerkonderscheid als temporele continuïteit behoudt, en CFG-Cache die optimaliseert het hergebruik van conditionele en onvoorwaardelijke uitvoer om de inferentiesnelheid verder te verbeteren zonder de videokwaliteit in gevaar te brengen. We evalueren FasterCache empirisch op recente video diffusiemodellen. Experimentele resultaten tonen aan dat FasterCache de videogeneratie aanzienlijk kan versnellen (bijv. 1,67 keer versnelling op Vchitect-2.0) terwijl de videokwaliteit vergelijkbaar blijft met de basislijn, en consequent bestaande methoden overtreft in zowel inferentiesnelheid als videokwaliteit.
English
In this paper, we present \textit{FasterCache}, a novel
training-free strategy designed to accelerate the inference of video diffusion
models with high-quality generation. By analyzing existing cache-based methods,
we observe that directly reusing adjacent-step features degrades video
quality due to the loss of subtle variations. We further perform a pioneering
investigation of the acceleration potential of classifier-free guidance (CFG)
and reveal significant redundancy between conditional and unconditional
features within the same timestep. Capitalizing on these observations, we
introduce FasterCache to substantially accelerate diffusion-based video
generation. Our key contributions include a dynamic feature reuse strategy that
preserves both feature distinction and temporal continuity, and CFG-Cache which
optimizes the reuse of conditional and unconditional outputs to further enhance
inference speed without compromising video quality. We empirically evaluate
FasterCache on recent video diffusion models. Experimental results show that
FasterCache can significantly accelerate video generation (\eg 1.67times
speedup on Vchitect-2.0) while keeping video quality comparable to the
baseline, and consistently outperform existing methods in both inference speed
and video quality.Summary
AI-Generated Summary