MTV-Inpaint: Multitasking-Langvideo-Inpainting
MTV-Inpaint: Multi-Task Long Video Inpainting
March 14, 2025
Autoren: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao
cs.AI
Zusammenfassung
Video-Inpainting beinhaltet die Modifikation lokaler Bereiche innerhalb eines Videos unter Wahrung der räumlichen und zeitlichen Konsistenz. Die meisten bestehenden Methoden konzentrieren sich hauptsächlich auf die Szenenvervollständigung (d.h. das Füllen fehlender Bereiche) und verfügen nicht über die Fähigkeit, neue Objekte auf kontrollierte Weise in eine Szene einzufügen. Glücklicherweise ebnen jüngste Fortschritte in Text-zu-Video (T2V) Diffusionsmodellen den Weg für textgesteuertes Video-Inpainting. Die direkte Anpassung von T2V-Modellen für Inpainting bleibt jedoch in der Vereinheitlichung von Vervollständigungs- und Einfügungsaufgaben begrenzt, bietet keine ausreichende Eingabesteuerung und hat Schwierigkeiten mit langen Videos, wodurch ihre Anwendbarkeit und Flexibilität eingeschränkt werden. Um diese Herausforderungen zu bewältigen, schlagen wir MTV-Inpaint vor, ein einheitliches Multi-Task-Video-Inpainting-Framework, das sowohl traditionelle Szenenvervollständigung als auch neuartige Objekteinfügungsaufgaben bewältigen kann. Um diese unterschiedlichen Aufgaben zu vereinheitlichen, entwerfen wir einen dualen Zweig-Spatial-Attention-Mechanismus im T2V-Diffusions-U-Net, der die nahtlose Integration von Szenenvervollständigung und Objekteinfügung innerhalb eines einzigen Frameworks ermöglicht. Neben der textuellen Steuerung unterstützt MTV-Inpaint die multimodale Kontrolle durch die Integration verschiedener Bild-Inpainting-Modelle über unseren vorgeschlagenen Bild-zu-Video (I2V) Inpainting-Modus. Zusätzlich schlagen wir eine zweistufige Pipeline vor, die Keyframe-Inpainting mit der Zwischenframe-Propagation kombiniert, wodurch MTV-Inpaint effektiv lange Videos mit Hunderten von Frames verarbeiten kann. Umfangreiche Experimente zeigen, dass MTV-Inpaint in beiden Aufgaben, der Szenenvervollständigung und der Objekteinfügung, state-of-the-art Leistungen erzielt. Darüber hinaus zeigt es Vielseitigkeit in abgeleiteten Anwendungen wie multimodales Inpainting, Objektbearbeitung, -entfernung, Bildobjektpinsel und der Fähigkeit, lange Videos zu verarbeiten. Projektseite: https://mtv-inpaint.github.io/.
English
Video inpainting involves modifying local regions within a video, ensuring
spatial and temporal consistency. Most existing methods focus primarily on
scene completion (i.e., filling missing regions) and lack the capability to
insert new objects into a scene in a controllable manner. Fortunately, recent
advancements in text-to-video (T2V) diffusion models pave the way for
text-guided video inpainting. However, directly adapting T2V models for
inpainting remains limited in unifying completion and insertion tasks, lacks
input controllability, and struggles with long videos, thereby restricting
their applicability and flexibility. To address these challenges, we propose
MTV-Inpaint, a unified multi-task video inpainting framework capable of
handling both traditional scene completion and novel object insertion tasks. To
unify these distinct tasks, we design a dual-branch spatial attention mechanism
in the T2V diffusion U-Net, enabling seamless integration of scene completion
and object insertion within a single framework. In addition to textual
guidance, MTV-Inpaint supports multimodal control by integrating various image
inpainting models through our proposed image-to-video (I2V) inpainting mode.
Additionally, we propose a two-stage pipeline that combines keyframe inpainting
with in-between frame propagation, enabling MTV-Inpaint to effectively handle
long videos with hundreds of frames. Extensive experiments demonstrate that
MTV-Inpaint achieves state-of-the-art performance in both scene completion and
object insertion tasks. Furthermore, it demonstrates versatility in derived
applications such as multi-modal inpainting, object editing, removal, image
object brush, and the ability to handle long videos. Project page:
https://mtv-inpaint.github.io/.Summary
AI-Generated Summary