L'incorporamento dell'istante temporale dice: è tempo di memorizzare nella cache per il modello di diffusione video

Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

November 28, 2024
Autori: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan
cs.AI

Abstract

Come fondamentale supporto per la generazione di video, i modelli di diffusione sono sfidati dalla bassa velocità di inferenza a causa della natura sequenziale del denoising. Metodi precedenti accelerano i modelli memorizzando e riutilizzando le uscite del modello a intervalli di tempo uniformemente selezionati. Tuttavia, tale strategia trascura il fatto che le differenze tra le uscite del modello non sono uniformi tra gli intervalli di tempo, il che ostacola la selezione delle adeguate uscite del modello da memorizzare, portando a un povero equilibrio tra efficienza di inferenza e qualità visiva. In questo studio, introduciamo TeaCache (Timestep Embedding Aware Cache), un approccio di memorizzazione senza addestramento che stima e sfrutta le fluttuanti differenze tra le uscite del modello tra gli intervalli di tempo. Piuttosto che utilizzare direttamente le uscite del modello che richiedono tempo, TeaCache si concentra sugli input del modello, che hanno una forte correlazione con le uscite del modello comportando un costo computazionale trascurabile. TeaCache modula innanzitutto gli input rumorosi utilizzando gli embedding degli intervalli di tempo per garantire che le loro differenze approssimino meglio quelle delle uscite del modello. TeaCache introduce quindi una strategia di riscalamento per raffinare le differenze stimate e le utilizza per indicare la memorizzazione delle uscite. Gli esperimenti mostrano che TeaCache raggiunge un'accelerazione fino a 4,41 volte rispetto a Open-Sora-Plan con una degradazione trascurabile (-0,07% del punteggio Vbench) della qualità visiva.
English
As a fundamental backbone for video generation, diffusion models are challenged by low inference speed due to the sequential nature of denoising. Previous methods speed up the models by caching and reusing model outputs at uniformly selected timesteps. However, such a strategy neglects the fact that differences among model outputs are not uniform across timesteps, which hinders selecting the appropriate model outputs to cache, leading to a poor balance between inference efficiency and visual quality. In this study, we introduce Timestep Embedding Aware Cache (TeaCache), a training-free caching approach that estimates and leverages the fluctuating differences among model outputs across timesteps. Rather than directly using the time-consuming model outputs, TeaCache focuses on model inputs, which have a strong correlation with the modeloutputs while incurring negligible computational cost. TeaCache first modulates the noisy inputs using the timestep embeddings to ensure their differences better approximating those of model outputs. TeaCache then introduces a rescaling strategy to refine the estimated differences and utilizes them to indicate output caching. Experiments show that TeaCache achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07% Vbench score) degradation of visual quality.

Summary

AI-Generated Summary

PDF172December 2, 2024