DiffuEraser: Een Diffusie Model voor Video Inpainting

DiffuEraser: A Diffusion Model for Video Inpainting

January 17, 2025
Auteurs: Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
cs.AI

Samenvatting

Recente video-inpainting algoritmes integreren op flow gebaseerde pixelpropagatie met op transformer gebaseerde generatie om optische flow te benutten voor het herstellen van texturen en objecten met behulp van informatie uit naburige frames, terwijl ze gemaskerde gebieden voltooien door middel van visuele Transformers. Deze benaderingen ondervinden echter vaak vervaging en temporele inconsistenties bij het omgaan met grote maskers, waarbij de noodzaak voor modellen met verbeterde generatieve mogelijkheden wordt benadrukt. Onlangs zijn diffusiemodellen naar voren gekomen als een prominente techniek in beeld- en videogeneratie vanwege hun indrukwekkende prestaties. In dit artikel introduceren we DiffuEraser, een video-inpainting model gebaseerd op stabiele diffusie, ontworpen om gemaskerde gebieden op te vullen met meer details en coherentere structuren. We nemen voorafgaande informatie op om initialisatie en zwakke conditionering te bieden, wat helpt bij het verminderen van ruisartefacten en het onderdrukken van hallucinaties. Daarnaast breiden we voor het verbeteren van temporele consistentie tijdens langdurige inferentie de temporele receptieve velden uit van zowel het voorafgaande model als DiffuEraser, en verbeteren we de consistentie verder door gebruik te maken van de temporele gladmakende eigenschap van Video Diffusie Modellen. Experimentele resultaten tonen aan dat onze voorgestelde methode beter presteert dan state-of-the-art technieken op zowel inhoudelijke volledigheid als temporele consistentie, met behoud van acceptabele efficiëntie.
English
Recent video inpainting algorithms integrate flow-based pixel propagation with transformer-based generation to leverage optical flow for restoring textures and objects using information from neighboring frames, while completing masked regions through visual Transformers. However, these approaches often encounter blurring and temporal inconsistencies when dealing with large masks, highlighting the need for models with enhanced generative capabilities. Recently, diffusion models have emerged as a prominent technique in image and video generation due to their impressive performance. In this paper, we introduce DiffuEraser, a video inpainting model based on stable diffusion, designed to fill masked regions with greater details and more coherent structures. We incorporate prior information to provide initialization and weak conditioning,which helps mitigate noisy artifacts and suppress hallucinations. Additionally, to improve temporal consistency during long-sequence inference, we expand the temporal receptive fields of both the prior model and DiffuEraser, and further enhance consistency by leveraging the temporal smoothing property of Video Diffusion Models. Experimental results demonstrate that our proposed method outperforms state-of-the-art techniques in both content completeness and temporal consistency while maintaining acceptable efficiency.

Summary

AI-Generated Summary

PDF132January 24, 2025