ChatPaper.aiChatPaper

MoViE: 모바일 비디오 편집을 위한 이동식 확산

MoViE: Mobile Diffusion for Video Editing

December 9, 2024
저자: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI

초록

최근 확산 기반 비디오 편집의 발전은 실용적인 응용 가능성을 보여주었습니다. 그러나 이러한 방법들은 여전히 모바일 장치에 배포하기 어렵고 고가로 유지되고 있습니다. 본 연구에서는 모바일 비디오 편집을 가능하게 하는 일련의 최적화를 소개합니다. 기존 이미지 편집 모델을 기반으로, 먼저 그 구조를 최적화하고 가벼운 오토인코더를 통합합니다. 이후, 분류기 없는 가이드 지식 증류를 여러 모달리티로 확장하여 장치 내 속도를 세 배 향상시킵니다. 마지막으로, 편집 과정의 조절 가능성을 보존하는 새로운 적대적 지식 증류 방식을 도입하여 샘플링 단계 수를 하나로 줄입니다. 이러한 최적화들을 종합하면, 고품질을 유지하면서 모바일 장치에서 초당 12프레임의 비디오 편집이 가능해집니다. 결과는 https://qualcomm-ai-research.github.io/mobile-video-editing/에서 확인할 수 있습니다.
English
Recent progress in diffusion-based video editing has shown remarkable potential for practical applications. However, these methods remain prohibitively expensive and challenging to deploy on mobile devices. In this study, we introduce a series of optimizations that render mobile video editing feasible. Building upon the existing image editing model, we first optimize its architecture and incorporate a lightweight autoencoder. Subsequently, we extend classifier-free guidance distillation to multiple modalities, resulting in a threefold on-device speedup. Finally, we reduce the number of sampling steps to one by introducing a novel adversarial distillation scheme which preserves the controllability of the editing process. Collectively, these optimizations enable video editing at 12 frames per second on mobile devices, while maintaining high quality. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-editing/

Summary

AI-Generated Summary

PDF192December 11, 2024