ChatPaper.aiChatPaper

모바일 비디오 전파

Mobile Video Diffusion

December 10, 2024
저자: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
cs.AI

초록

비디오 확산 모델은 인상적인 현실감과 조절 가능성을 달성했지만, 높은 계산 요구로 인해 모바일 장치에서의 사용이 제한되고 있습니다. 본 논문은 최초로 모바일에 최적화된 비디오 확산 모델을 소개합니다. Stable Video Diffusion (SVD)의 시공간 UNet에서 시작하여, 프레임 해상도를 줄이고 다중 규모의 시간적 표현을 통합하며, 채널 수와 시간 블록 수를 줄이기 위해 두 가지 새로운 가지치기 체계를 도입하여 메모리 및 계산 비용을 줄였습니다. 더불어, 노이즈 제거를 단일 단계로 줄이기 위해 적대적인 파인튜닝을 사용했습니다. MobileVD로 명명된 우리의 모델은 약간의 품질 저하(FVD 149 대 171)와 함께 14x512x256 px 클립의 latents를 Xiaomi-14 Pro에서 1.7초 내에 생성하는 데 523배 효율적(1817.2 대 4.34 TFLOPs)입니다. 결과는 https://qualcomm-ai-research.github.io/mobile-video-diffusion/에서 확인할 수 있습니다.
English
Video diffusion models have achieved impressive realism and controllability but are limited by high computational demands, restricting their use on mobile devices. This paper introduces the first mobile-optimized video diffusion model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD), we reduce memory and computational cost by reducing the frame resolution, incorporating multi-scale temporal representations, and introducing two novel pruning schema to reduce the number of channels and temporal blocks. Furthermore, we employ adversarial finetuning to reduce the denoising to a single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs. 4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/

Summary

AI-Generated Summary

PDF212December 11, 2024