Adaptive Zwischenspeicherung zur schnelleren Videogenerierung mit Diffusions-Transformern.
Adaptive Caching for Faster Video Generation with Diffusion Transformers
November 4, 2024
Autoren: Kumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie
cs.AI
Zusammenfassung
Die Generierung zeitlich konsistenter hochwertiger Videos kann rechnerisch aufwendig sein, insbesondere über längere Zeitspannen. Neuere Diffusions-Transformer (DiTs) - obwohl sie in diesem Kontext signifikante Fortschritte gemacht haben - haben solche Herausforderungen nur verstärkt, da sie auf größeren Modellen und schwereren Aufmerksamkeitsmechanismen beruhen, was zu langsameren Inferenzgeschwindigkeiten führt. In diesem Artikel stellen wir eine trainingsfreie Methode zur Beschleunigung von Video-DiTs vor, die als Adaptive Caching (AdaCache) bezeichnet wird. Diese Methode wird durch die Tatsache motiviert, dass "nicht alle Videos gleich erstellt werden": Das bedeutet, dass einige Videos weniger Rauschunterdrückungsschritte benötigen, um eine angemessene Qualität zu erreichen als andere. Aufbauend darauf speichern wir nicht nur Berechnungen durch den Diffusionsprozess, sondern entwickeln auch einen auf jede Video-Generierung zugeschnittenen Caching-Zeitplan, der den Qualitäts-Latenz-Trade-off maximiert. Des Weiteren führen wir ein Motion Regularization (MoReg)-Schema ein, um Videoinformationen innerhalb von AdaCache zu nutzen, wodurch im Wesentlichen die Rechenzuweisung basierend auf Bewegungsinhalten gesteuert wird. Insgesamt gewähren unsere Plug-and-Play-Beiträge signifikante Beschleunigungen der Inferenz (z. B. bis zu 4,7-fach bei der Erzeugung von Open-Sora 720p - 2s Videos) ohne Einbußen bei der Generierungsqualität, über mehrere Video-DiT-Baselines hinweg.
English
Generating temporally-consistent high-fidelity videos can be computationally
expensive, especially over longer temporal spans. More-recent Diffusion
Transformers (DiTs) -- despite making significant headway in this context --
have only heightened such challenges as they rely on larger models and heavier
attention mechanisms, resulting in slower inference speeds. In this paper, we
introduce a training-free method to accelerate video DiTs, termed Adaptive
Caching (AdaCache), which is motivated by the fact that "not all videos are
created equal": meaning, some videos require fewer denoising steps to attain a
reasonable quality than others. Building on this, we not only cache
computations through the diffusion process, but also devise a caching schedule
tailored to each video generation, maximizing the quality-latency trade-off. We
further introduce a Motion Regularization (MoReg) scheme to utilize video
information within AdaCache, essentially controlling the compute allocation
based on motion content. Altogether, our plug-and-play contributions grant
significant inference speedups (e.g. up to 4.7x on Open-Sora 720p - 2s video
generation) without sacrificing the generation quality, across multiple video
DiT baselines.Summary
AI-Generated Summary