Adaptieve Caching voor Snellere Videogeneratie met Diffusie-Transformers
Adaptive Caching for Faster Video Generation with Diffusion Transformers
November 4, 2024
Auteurs: Kumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie
cs.AI
Samenvatting
Het genereren van temporeel consistente video's van hoge kwaliteit kan rekenkundig kostbaar zijn, vooral over langere tijdsperiodes. Meer recente Diffusion Transformers (DiTs) - ondanks significante vooruitgang op dit gebied - hebben dergelijke uitdagingen alleen maar vergroot doordat ze afhankelijk zijn van grotere modellen en zwaardere aandachtsmechanismen, wat resulteert in langzamere inferentiesnelheden. In dit artikel introduceren we een trainingsvrije methode om video DiTs te versnellen, genaamd Adaptieve Caching (AdaCache), die is gemotiveerd door het feit dat "niet alle video's gelijk zijn": wat betekent dat sommige video's minder denoising-stappen vereisen om een redelijke kwaliteit te bereiken dan andere. Hierop voortbouwend cachen we niet alleen berekeningen via het diffusieproces, maar ontwerpen we ook een cachelogboekschema dat is afgestemd op elke videogeneratie, waarbij de kwaliteit-latency trade-off wordt gemaximaliseerd. We introduceren verder een Bewegingsregulerings (MoReg) schema om videoinformatie binnen AdaCache te benutten, waarbij de berekeningsallocatie wordt gecontroleerd op basis van bewegingsinhoud. Al met al bieden onze plug-and-play bijdragen aanzienlijke versnellingen van inferentie (bijv. tot 4,7x op Open-Sora 720p - 2s videogeneratie) zonder in te leveren op de generatiekwaliteit, over meerdere video DiT baselines.
English
Generating temporally-consistent high-fidelity videos can be computationally
expensive, especially over longer temporal spans. More-recent Diffusion
Transformers (DiTs) -- despite making significant headway in this context --
have only heightened such challenges as they rely on larger models and heavier
attention mechanisms, resulting in slower inference speeds. In this paper, we
introduce a training-free method to accelerate video DiTs, termed Adaptive
Caching (AdaCache), which is motivated by the fact that "not all videos are
created equal": meaning, some videos require fewer denoising steps to attain a
reasonable quality than others. Building on this, we not only cache
computations through the diffusion process, but also devise a caching schedule
tailored to each video generation, maximizing the quality-latency trade-off. We
further introduce a Motion Regularization (MoReg) scheme to utilize video
information within AdaCache, essentially controlling the compute allocation
based on motion content. Altogether, our plug-and-play contributions grant
significant inference speedups (e.g. up to 4.7x on Open-Sora 720p - 2s video
generation) without sacrificing the generation quality, across multiple video
DiT baselines.Summary
AI-Generated Summary