AccVideo: Accelerazione del Modello di Diffusione Video con Dataset Sintetico
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset
March 25, 2025
Autori: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI
Abstract
I modelli di diffusione hanno ottenuto progressi significativi nel campo della generazione video. Tuttavia, la loro natura iterativa di rimozione del rumore richiede un numero elevato di passaggi di inferenza per generare un video, rendendo il processo lento e computazionalmente costoso. In questo articolo, iniziamo con un'analisi dettagliata delle sfide presenti nei metodi esistenti di distillazione della diffusione e proponiamo un nuovo metodo efficiente, denominato AccVideo, per ridurre i passaggi di inferenza e accelerare i modelli di diffusione video utilizzando un dataset sintetico. Sfruttiamo il modello di diffusione video pre-addestrato per generare molteplici traiettorie valide di rimozione del rumore come nostro dataset sintetico, eliminando così l'uso di punti dati inutili durante la distillazione. Basandoci sul dataset sintetico, progettiamo una guida a pochi passaggi basata sulle traiettorie che utilizza punti dati chiave dalle traiettorie di rimozione del rumore per apprendere la mappatura dal rumore al video, consentendo la generazione di video in meno passaggi. Inoltre, poiché il dataset sintetico cattura la distribuzione dei dati in ogni passo temporale della diffusione, introduciamo una strategia di addestramento avversario per allineare la distribuzione di output del modello studente con quella del nostro dataset sintetico, migliorando così la qualità del video. Esperimenti estensivi dimostrano che il nostro modello raggiunge un miglioramento di 8,5x nella velocità di generazione rispetto al modello insegnante, mantenendo prestazioni comparabili. Rispetto ai metodi di accelerazione precedenti, il nostro approccio è in grado di generare video con qualità e risoluzione superiori, ovvero 5 secondi, 720x1280, 24fps.
English
Diffusion models have achieved remarkable progress in the field of video
generation. However, their iterative denoising nature requires a large number
of inference steps to generate a video, which is slow and computationally
expensive. In this paper, we begin with a detailed analysis of the challenges
present in existing diffusion distillation methods and propose a novel
efficient method, namely AccVideo, to reduce the inference steps for
accelerating video diffusion models with synthetic dataset. We leverage the
pretrained video diffusion model to generate multiple valid denoising
trajectories as our synthetic dataset, which eliminates the use of useless data
points during distillation. Based on the synthetic dataset, we design a
trajectory-based few-step guidance that utilizes key data points from the
denoising trajectories to learn the noise-to-video mapping, enabling video
generation in fewer steps. Furthermore, since the synthetic dataset captures
the data distribution at each diffusion timestep, we introduce an adversarial
training strategy to align the output distribution of the student model with
that of our synthetic dataset, thereby enhancing the video quality. Extensive
experiments demonstrate that our model achieves 8.5x improvements in generation
speed compared to the teacher model while maintaining comparable performance.
Compared to previous accelerating methods, our approach is capable of
generating videos with higher quality and resolution, i.e., 5-seconds,
720x1280, 24fps.Summary
AI-Generated Summary