MoViE: Diffusione Mobile per l'Editing Video
MoViE: Mobile Diffusion for Video Editing
December 9, 2024
Autori: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI
Abstract
I recenti progressi nell'editing video basato sulla diffusione hanno mostrato un notevole potenziale per applicazioni pratiche. Tuttavia, questi metodi rimangono proibitivamente costosi e difficili da implementare su dispositivi mobili. In questo studio, introduciamo una serie di ottimizzazioni che rendono fattibile l'editing video su dispositivi mobili. Partendo dal modello esistente di editing delle immagini, ottimizziamo innanzitutto la sua architettura e incorporiamo un autoencoder leggero. Successivamente, estendiamo la distillazione della guida senza classificatore a più modalità, ottenendo un triplo aumento della velocità sul dispositivo. Infine, riduciamo il numero di passaggi di campionamento a uno introducendo un nuovo schema di distillazione avversaria che preserva la controllabilità del processo di editing. Complessivamente, queste ottimizzazioni consentono l'editing video a 12 fotogrammi al secondo su dispositivi mobili, mantenendo un'alta qualità. I nostri risultati sono disponibili su https://qualcomm-ai-research.github.io/mobile-video-editing/
English
Recent progress in diffusion-based video editing has shown remarkable
potential for practical applications. However, these methods remain
prohibitively expensive and challenging to deploy on mobile devices. In this
study, we introduce a series of optimizations that render mobile video editing
feasible. Building upon the existing image editing model, we first optimize its
architecture and incorporate a lightweight autoencoder. Subsequently, we extend
classifier-free guidance distillation to multiple modalities, resulting in a
threefold on-device speedup. Finally, we reduce the number of sampling steps to
one by introducing a novel adversarial distillation scheme which preserves the
controllability of the editing process. Collectively, these optimizations
enable video editing at 12 frames per second on mobile devices, while
maintaining high quality. Our results are available at
https://qualcomm-ai-research.github.io/mobile-video-editing/Summary
AI-Generated Summary