Diffusione Video Mobile

Mobile Video Diffusion

December 10, 2024
Autori: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
cs.AI

Abstract

I modelli di diffusione video hanno raggiunto un'impressionante realismo e controllabilità, ma sono limitati da elevate richieste computazionali, che ne limitano l'utilizzo sui dispositivi mobili. Questo articolo introduce il primo modello di diffusione video ottimizzato per dispositivi mobili. Partendo da un UNet spazio-temporale derivato da Stable Video Diffusion (SVD), riduciamo la memoria e il costo computazionale riducendo la risoluzione dei frame, incorporando rappresentazioni temporali multi-scala e introducendo due nuovi schemi di potatura per ridurre il numero di canali e blocchi temporali. Inoltre, impieghiamo il fine-tuning avversario per ridurre il denoising a un singolo passaggio. Il nostro modello, denominato MobileVD, è 523 volte più efficiente (1817,2 vs. 4,34 TFLOPs) con una leggera diminuzione della qualità (FVD 149 vs. 171), generando latenti per un clip di dimensioni 14x512x256 px in 1,7 secondi su un Xiaomi-14 Pro. I nostri risultati sono disponibili su https://qualcomm-ai-research.github.io/mobile-video-diffusion/
English
Video diffusion models have achieved impressive realism and controllability but are limited by high computational demands, restricting their use on mobile devices. This paper introduces the first mobile-optimized video diffusion model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD), we reduce memory and computational cost by reducing the frame resolution, incorporating multi-scale temporal representations, and introducing two novel pruning schema to reduce the number of channels and temporal blocks. Furthermore, we employ adversarial finetuning to reduce the denoising to a single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs. 4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/

Summary

AI-Generated Summary

PDF202December 11, 2024