MIVE: Novo Design e Referência para Edição de Vídeos de Múltiplas Instâncias
MIVE: New Design and Benchmark for Multi-Instance Video Editing
December 17, 2024
Autores: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim
cs.AI
Resumo
Edição de vídeo baseada em IA recente tem permitido aos usuários editar vídeos através de simples instruções de texto, simplificando significativamente o processo de edição. No entanto, as técnicas recentes de edição de vídeo sem supervisão focam principalmente em edições globais ou de objetos únicos, o que pode resultar em mudanças não intencionais em outras partes do vídeo. Quando múltiplos objetos necessitam de edições localizadas, os métodos existentes enfrentam desafios, como edição não fiel, vazamento de edição e falta de conjuntos de dados e métricas de avaliação adequados. Para superar essas limitações, propomos um framework de Edição de Vídeo Multi-Instância sem supervisão, chamado MIVE. MIVE é um framework baseado em máscaras de propósito geral, não dedicado a objetos específicos (por exemplo, pessoas). MIVE introduz dois módulos-chave: (i) Amostragem Multi-instância Desentrelaçada (DMS) para prevenir vazamento de edição e (ii) Redistribuição de Probabilidade Centrada na Instância (IPR) para garantir localização precisa e edição fiel. Além disso, apresentamos nosso novo Conjunto de Dados MIVE com cenários de vídeo diversos e introduzimos o Índice de Precisão entre Instâncias (CIA) para avaliar vazamento de edição em tarefas de edição de vídeo multi-instância. Nossas extensas avaliações qualitativas, quantitativas e estudo de usuários demonstram que MIVE supera significativamente os métodos recentes de ponta em termos de fidelidade na edição, precisão e prevenção de vazamento, estabelecendo um novo referencial para edição de vídeo multi-instância. A página do projeto está disponível em https://kaist-viclab.github.io/mive-site/
English
Recent AI-based video editing has enabled users to edit videos through simple
text prompts, significantly simplifying the editing process. However, recent
zero-shot video editing techniques primarily focus on global or single-object
edits, which can lead to unintended changes in other parts of the video. When
multiple objects require localized edits, existing methods face challenges,
such as unfaithful editing, editing leakage, and lack of suitable evaluation
datasets and metrics. To overcome these limitations, we propose a zero-shot
Multi-Instance Video Editing
framework, called MIVE. MIVE is a general-purpose mask-based framework, not
dedicated to specific objects (e.g., people). MIVE introduces two key modules:
(i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and
(ii) Instance-centric Probability Redistribution (IPR) to ensure precise
localization and faithful editing. Additionally, we present our new MIVE
Dataset featuring diverse video scenarios and introduce the Cross-Instance
Accuracy (CIA) Score to evaluate editing leakage in multi-instance video
editing tasks. Our extensive qualitative, quantitative, and user study
evaluations demonstrate that MIVE significantly outperforms recent
state-of-the-art methods in terms of editing faithfulness, accuracy, and
leakage prevention, setting a new benchmark for multi-instance video editing.
The project page is available at https://kaist-viclab.github.io/mive-site/Summary
AI-Generated Summary