Caching Adattivo per una Generazione Video più Veloce con Trasformatori a Diffusione
Adaptive Caching for Faster Video Generation with Diffusion Transformers
November 4, 2024
Autori: Kumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie
cs.AI
Abstract
Generare video ad alta fedeltà temporalmente consistenti può essere computazionalmente costoso, specialmente su periodi temporali più lunghi. Le più recenti Trasformazioni a Diffusione (DiTs) - nonostante abbiano compiuto progressi significativi in questo contesto - hanno solo accentuato tali sfide poiché si basano su modelli più grandi e meccanismi di attenzione più pesanti, risultando in velocità di inferenza più lente. In questo articolo, presentiamo un metodo privo di addestramento per accelerare i video DiTs, denominato Caching Adattivo (AdaCache), che è motivato dal fatto che "non tutti i video sono creati uguali": ciò significa che alcuni video richiedono meno passaggi di denoising per ottenere una qualità accettabile rispetto ad altri. Sfruttando questo concetto, non solo memorizziamo calcoli attraverso il processo di diffusione, ma progettiamo anche un programma di caching adattato a ciascuna generazione video, massimizzando il compromesso qualità-latency. Introduciamo inoltre uno schema di Regolarizzazione del Movimento (MoReg) per utilizzare le informazioni video all'interno di AdaCache, controllando essenzialmente l'allocazione di calcolo in base al contenuto del movimento. Nel complesso, i nostri contributi plug-and-play offrono significativi miglioramenti nella velocità di inferenza (ad es. fino a 4,7 volte nella generazione video di Open-Sora 720p - 2s) senza compromettere la qualità della generazione, su diversi baselines di video DiT.
English
Generating temporally-consistent high-fidelity videos can be computationally
expensive, especially over longer temporal spans. More-recent Diffusion
Transformers (DiTs) -- despite making significant headway in this context --
have only heightened such challenges as they rely on larger models and heavier
attention mechanisms, resulting in slower inference speeds. In this paper, we
introduce a training-free method to accelerate video DiTs, termed Adaptive
Caching (AdaCache), which is motivated by the fact that "not all videos are
created equal": meaning, some videos require fewer denoising steps to attain a
reasonable quality than others. Building on this, we not only cache
computations through the diffusion process, but also devise a caching schedule
tailored to each video generation, maximizing the quality-latency trade-off. We
further introduce a Motion Regularization (MoReg) scheme to utilize video
information within AdaCache, essentially controlling the compute allocation
based on motion content. Altogether, our plug-and-play contributions grant
significant inference speedups (e.g. up to 4.7x on Open-Sora 720p - 2s video
generation) without sacrificing the generation quality, across multiple video
DiT baselines.Summary
AI-Generated Summary