AccVideo: Beschleunigung von Video-Diffusionsmodellen mit synthetischem Datensatz
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset
March 25, 2025
Autoren: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI
Zusammenfassung
Diffusionsmodelle haben bemerkenswerte Fortschritte im Bereich der Videogenerierung erzielt. Allerdings erfordert ihre iterative Entrauschungsnatur eine große Anzahl von Inferenzschritten, um ein Video zu generieren, was langsam und rechenintensiv ist. In diesem Papier beginnen wir mit einer detaillierten Analyse der Herausforderungen, die in bestehenden Diffusionsdestillationsmethoden vorhanden sind, und schlagen eine neuartige effiziente Methode namens AccVideo vor, um die Inferenzschritte zur Beschleunigung von Videodiffusionsmodellen mit einem synthetischen Datensatz zu reduzieren. Wir nutzen das vortrainierte Videodiffusionsmodell, um mehrere gültige Entrauschungspfade als unseren synthetischen Datensatz zu generieren, wodurch die Verwendung nutzloser Datenpunkte während der Destillation entfällt. Basierend auf dem synthetischen Datensatz entwerfen wir eine pfadbasierte Mehrschrittführung, die Schlüsseldatenpunkte aus den Entrauschungspfaden nutzt, um die Rauschen-zu-Video-Abbildung zu erlernen, was die Videogenerierung in weniger Schritten ermöglicht. Darüber hinaus führen wir, da der synthetische Datensatz die Datenverteilung in jedem Diffusionszeitschritt erfasst, eine adversariale Trainingsstrategie ein, um die Ausgabeverteilung des Schülermodells mit der unseres synthetischen Datensatzes abzugleichen und so die Videoqualität zu verbessern. Umfangreiche Experimente zeigen, dass unser Modell eine 8,5-fache Verbesserung der Generierungsgeschwindigkeit im Vergleich zum Lehrermodell erreicht, bei gleichbleibender Leistung. Im Vergleich zu früheren Beschleunigungsmethoden ist unser Ansatz in der Lage, Videos mit höherer Qualität und Auflösung zu generieren, d.h. 5 Sekunden, 720x1280, 24fps.
English
Diffusion models have achieved remarkable progress in the field of video
generation. However, their iterative denoising nature requires a large number
of inference steps to generate a video, which is slow and computationally
expensive. In this paper, we begin with a detailed analysis of the challenges
present in existing diffusion distillation methods and propose a novel
efficient method, namely AccVideo, to reduce the inference steps for
accelerating video diffusion models with synthetic dataset. We leverage the
pretrained video diffusion model to generate multiple valid denoising
trajectories as our synthetic dataset, which eliminates the use of useless data
points during distillation. Based on the synthetic dataset, we design a
trajectory-based few-step guidance that utilizes key data points from the
denoising trajectories to learn the noise-to-video mapping, enabling video
generation in fewer steps. Furthermore, since the synthetic dataset captures
the data distribution at each diffusion timestep, we introduce an adversarial
training strategy to align the output distribution of the student model with
that of our synthetic dataset, thereby enhancing the video quality. Extensive
experiments demonstrate that our model achieves 8.5x improvements in generation
speed compared to the teacher model while maintaining comparable performance.
Compared to previous accelerating methods, our approach is capable of
generating videos with higher quality and resolution, i.e., 5-seconds,
720x1280, 24fps.Summary
AI-Generated Summary