MIVE: Nuovo Design e Benchmark per l'Editing Video Multi-Istanza
MIVE: New Design and Benchmark for Multi-Instance Video Editing
December 17, 2024
Autori: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim
cs.AI
Abstract
Recenti tecniche di editing video basate sull'IA hanno permesso agli utenti di modificare video attraverso semplici prompt di testo, semplificando notevolmente il processo di editing. Tuttavia, le recenti tecniche di editing video zero-shot si concentrano principalmente su modifiche globali o a singoli oggetti, il che può portare a cambiamenti non intenzionali in altre parti del video. Quando più oggetti richiedono modifiche localizzate, i metodi esistenti affrontano sfide come editing non fedele, perdita di editing e mancanza di set di dati e metriche di valutazione adatti. Per superare tali limitazioni, proponiamo un framework di editing video zero-shot multi-istanza, chiamato MIVE. MIVE è un framework basato su maschere di uso generale, non dedicato a oggetti specifici (ad esempio, persone). MIVE introduce due moduli chiave: (i) Campionamento Multi-istanza Disentangled (DMS) per prevenire la perdita di editing e (ii) Ridistribuzione della Probabilità Centrata sull'Istanza (IPR) per garantire una localizzazione precisa e un editing fedele. Inoltre, presentiamo il nostro nuovo Dataset MIVE che presenta scenari video diversificati e introduciamo il Punteggio di Precisione tra Istanze (CIA) per valutare la perdita di editing in compiti di editing video multi-istanza. Le nostre estese valutazioni qualitative, quantitative e di studio utente dimostrano che MIVE supera significativamente i recenti metodi all'avanguardia in termini di fedeltà all'editing, precisione e prevenzione della perdita, stabilendo un nuovo punto di riferimento per l'editing video multi-istanza. La pagina del progetto è disponibile su https://kaist-viclab.github.io/mive-site/
English
Recent AI-based video editing has enabled users to edit videos through simple
text prompts, significantly simplifying the editing process. However, recent
zero-shot video editing techniques primarily focus on global or single-object
edits, which can lead to unintended changes in other parts of the video. When
multiple objects require localized edits, existing methods face challenges,
such as unfaithful editing, editing leakage, and lack of suitable evaluation
datasets and metrics. To overcome these limitations, we propose a zero-shot
Multi-Instance Video Editing
framework, called MIVE. MIVE is a general-purpose mask-based framework, not
dedicated to specific objects (e.g., people). MIVE introduces two key modules:
(i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and
(ii) Instance-centric Probability Redistribution (IPR) to ensure precise
localization and faithful editing. Additionally, we present our new MIVE
Dataset featuring diverse video scenarios and introduce the Cross-Instance
Accuracy (CIA) Score to evaluate editing leakage in multi-instance video
editing tasks. Our extensive qualitative, quantitative, and user study
evaluations demonstrate that MIVE significantly outperforms recent
state-of-the-art methods in terms of editing faithfulness, accuracy, and
leakage prevention, setting a new benchmark for multi-instance video editing.
The project page is available at https://kaist-viclab.github.io/mive-site/Summary
AI-Generated Summary