ChatPaper.aiChatPaper

DiffuEraser: 비디오 인페인팅을 위한 확산 모델

DiffuEraser: A Diffusion Model for Video Inpainting

January 17, 2025
저자: Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
cs.AI

초록

최근의 비디오 인페인팅 알고리즘은 근접 프레임으로부터의 정보를 활용하여 광학 흐름을 이용하여 텍스처와 객체를 복원하기 위해 픽셀 전파 기반 흐름과 트랜스포머 기반 생성을 통합합니다. 이러한 접근 방식은 주로 시각적 트랜스포머를 통해 마스크된 영역을 완성하는 동안 큰 마스크를 처리할 때 흐림과 시간적 불일치를 겪는데, 이는 향상된 생성 능력을 갖춘 모델이 필요함을 강조합니다. 최근에는 이미지 및 비디오 생성에서 높은 성능으로 인해 확산 모델이 주목받고 있습니다. 본 논문에서는 안정적인 확산을 기반으로 한 비디오 인페인팅 모델인 DiffuEraser를 소개합니다. 이 모델은 더 많은 세부 정보와 더 일관된 구조로 마스크된 영역을 채우도록 설계되었습니다. 우리는 초기화와 약한 조건부 제공을 위해 사전 정보를 통합하여 잡음 아티팩트를 완화하고 환각을 억제하는 데 도움을 줍니다. 또한, 장기 시퀀스 추론 중 시간적 일관성을 향상시키기 위해 사전 모델과 DiffuEraser의 시간적 수용 영역을 확장하고 비디오 확산 모델의 시간적 평활 특성을 활용하여 일관성을 더욱 향상시킵니다. 실험 결과는 우리의 제안된 방법이 내용 완전성과 시간적 일관성 측면에서 최첨단 기술을 능가하면서 합리적인 효율성을 유지함을 보여줍니다.
English
Recent video inpainting algorithms integrate flow-based pixel propagation with transformer-based generation to leverage optical flow for restoring textures and objects using information from neighboring frames, while completing masked regions through visual Transformers. However, these approaches often encounter blurring and temporal inconsistencies when dealing with large masks, highlighting the need for models with enhanced generative capabilities. Recently, diffusion models have emerged as a prominent technique in image and video generation due to their impressive performance. In this paper, we introduce DiffuEraser, a video inpainting model based on stable diffusion, designed to fill masked regions with greater details and more coherent structures. We incorporate prior information to provide initialization and weak conditioning,which helps mitigate noisy artifacts and suppress hallucinations. Additionally, to improve temporal consistency during long-sequence inference, we expand the temporal receptive fields of both the prior model and DiffuEraser, and further enhance consistency by leveraging the temporal smoothing property of Video Diffusion Models. Experimental results demonstrate that our proposed method outperforms state-of-the-art techniques in both content completeness and temporal consistency while maintaining acceptable efficiency.

Summary

AI-Generated Summary

PDF142January 24, 2025