MoViE: Diffusione Mobile per l'Editing Video

MoViE: Mobile Diffusion for Video Editing

December 9, 2024
Autori: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI

Abstract

I recenti progressi nell'editing video basato sulla diffusione hanno mostrato un notevole potenziale per applicazioni pratiche. Tuttavia, questi metodi rimangono proibitivamente costosi e difficili da implementare su dispositivi mobili. In questo studio, introduciamo una serie di ottimizzazioni che rendono fattibile l'editing video su dispositivi mobili. Partendo dal modello esistente di editing delle immagini, ottimizziamo innanzitutto la sua architettura e incorporiamo un autoencoder leggero. Successivamente, estendiamo la distillazione della guida senza classificatore a più modalità, ottenendo un triplo aumento della velocità sul dispositivo. Infine, riduciamo il numero di passaggi di campionamento a uno introducendo un nuovo schema di distillazione avversaria che preserva la controllabilità del processo di editing. Complessivamente, queste ottimizzazioni consentono l'editing video a 12 fotogrammi al secondo su dispositivi mobili, mantenendo un'alta qualità. I nostri risultati sono disponibili su https://qualcomm-ai-research.github.io/mobile-video-editing/
English
Recent progress in diffusion-based video editing has shown remarkable potential for practical applications. However, these methods remain prohibitively expensive and challenging to deploy on mobile devices. In this study, we introduce a series of optimizations that render mobile video editing feasible. Building upon the existing image editing model, we first optimize its architecture and incorporate a lightweight autoencoder. Subsequently, we extend classifier-free guidance distillation to multiple modalities, resulting in a threefold on-device speedup. Finally, we reduce the number of sampling steps to one by introducing a novel adversarial distillation scheme which preserves the controllability of the editing process. Collectively, these optimizations enable video editing at 12 frames per second on mobile devices, while maintaining high quality. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-editing/

Summary

AI-Generated Summary

PDF182December 11, 2024