ChatPaper.aiChatPaper

DiffuEraser: Ein Diffusionsmodell für das Videofüllen

DiffuEraser: A Diffusion Model for Video Inpainting

January 17, 2025
Autoren: Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
cs.AI

Zusammenfassung

Aktuelle Video-Inpainting-Algorithmen integrieren flussbasierte Pixelpropagation mit transformerbasierten Generierungstechniken, um den optischen Fluss zur Wiederherstellung von Texturen und Objekten unter Verwendung von Informationen aus benachbarten Frames zu nutzen, während maskierte Bereiche durch visuelle Transformer vervollständigt werden. Diese Ansätze stoßen jedoch häufig auf Unschärfe und zeitliche Inkonsistenzen bei der Bearbeitung großer Masken, was die Notwendigkeit von Modellen mit verbesserten generativen Fähigkeiten verdeutlicht. In letzter Zeit haben Diffusionsmodelle aufgrund ihrer beeindruckenden Leistung als herausragende Technik in der Bild- und Videogenerierung an Bedeutung gewonnen. In diesem Artikel stellen wir DiffuEraser vor, ein Video-Inpainting-Modell auf Basis stabiler Diffusion, das darauf abzielt, maskierte Bereiche mit mehr Details und kohärenteren Strukturen zu füllen. Wir integrieren Vorabinformationen, um Initialisierung und schwache Konditionierung bereitzustellen, was hilft, Rauschartefakte zu reduzieren und Halluzinationen zu unterdrücken. Darüber hinaus erweitern wir zur Verbesserung der zeitlichen Konsistenz während langer Sequenzinferenzen die zeitlichen rezeptiven Felder sowohl des Vorabmodells als auch von DiffuEraser und verbessern die Konsistenz weiter, indem wir die zeitliche Glättungseigenschaften von Video-Diffusionsmodellen nutzen. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Methode sowohl in Bezug auf die Vollständigkeit des Inhalts als auch auf die zeitliche Konsistenz die modernsten Techniken übertrifft und dabei eine akzeptable Effizienz beibehält.
English
Recent video inpainting algorithms integrate flow-based pixel propagation with transformer-based generation to leverage optical flow for restoring textures and objects using information from neighboring frames, while completing masked regions through visual Transformers. However, these approaches often encounter blurring and temporal inconsistencies when dealing with large masks, highlighting the need for models with enhanced generative capabilities. Recently, diffusion models have emerged as a prominent technique in image and video generation due to their impressive performance. In this paper, we introduce DiffuEraser, a video inpainting model based on stable diffusion, designed to fill masked regions with greater details and more coherent structures. We incorporate prior information to provide initialization and weak conditioning,which helps mitigate noisy artifacts and suppress hallucinations. Additionally, to improve temporal consistency during long-sequence inference, we expand the temporal receptive fields of both the prior model and DiffuEraser, and further enhance consistency by leveraging the temporal smoothing property of Video Diffusion Models. Experimental results demonstrate that our proposed method outperforms state-of-the-art techniques in both content completeness and temporal consistency while maintaining acceptable efficiency.

Summary

AI-Generated Summary

PDF142January 24, 2025