ChatPaper.aiChatPaper

LVCD: 확산 모델을 사용한 참조 기반 선화 비디오 색칠하기

LVCD: Reference-based Lineart Video Colorization with Diffusion Models

September 19, 2024
저자: Zhitong Huang, Mohan Zhang, Jing Liao
cs.AI

초록

참조 기반 선화 비디오 채색을 위한 최초의 비디오 확산 프레임워크를 제안합니다. 선화를 프레임 단위로 채색하는 기존 작업과 달리, 저희 방법은 대규모 사전 학습된 비디오 확산 모델을 활용하여 색이 칠해진 애니메이션 비디오를 생성합니다. 이 방법은 시간적으로 일관된 결과를 이끌어내며 대규모 움직임을 처리하는 데 능숙합니다. 먼저, 선화 안내 제어망인 Sketch-guided ControlNet을 소개합니다. 이는 조절 가능한 비디오 합성을 위해 이미지-비디오 확산 모델을 세밀하게 조정하는 추가 제어를 제공하여 선화에 의존하는 애니메이션 비디오 생성을 가능케 합니다. 그런 다음, 레퍼런스 어텐션을 제안하여 레퍼런스 프레임에서 빠르고 확장된 움직임을 포함하는 다른 프레임으로 색상을 전달하는 것을 용이하게 합니다. 마지막으로, Overlapped Blending Module과 Prev-Reference Attention을 통합한 순차 샘플링을 위한 새로운 체계를 제시하여 장시간 비디오 채색을 위한 비디오 확산 모델을 원래의 고정 길이 제한을 넘어서 확장합니다. 질적 및 양적 결과 모두에서 우리의 방법이 프레임 및 비디오 품질 및 시간적 일관성 측면에서 최첨단 기술을 크게 능가함을 보여줍니다. 더불어, 우리의 방법은 대규모 움직임을 포함한 고품질의 장기적 일관성 있는 애니메이션 비디오를 생성할 수 있으며, 이는 이전 작업에서는 불가능했습니다. 저희의 코드와 모델은 https://luckyhzt.github.io/lvcd에서 이용 가능합니다.
English
We propose the first video diffusion framework for reference-based lineart video colorization. Unlike previous works that rely solely on image generative models to colorize lineart frame by frame, our approach leverages a large-scale pretrained video diffusion model to generate colorized animation videos. This approach leads to more temporally consistent results and is better equipped to handle large motions. Firstly, we introduce Sketch-guided ControlNet which provides additional control to finetune an image-to-video diffusion model for controllable video synthesis, enabling the generation of animation videos conditioned on lineart. We then propose Reference Attention to facilitate the transfer of colors from the reference frame to other frames containing fast and expansive motions. Finally, we present a novel scheme for sequential sampling, incorporating the Overlapped Blending Module and Prev-Reference Attention, to extend the video diffusion model beyond its original fixed-length limitation for long video colorization. Both qualitative and quantitative results demonstrate that our method significantly outperforms state-of-the-art techniques in terms of frame and video quality, as well as temporal consistency. Moreover, our method is capable of generating high-quality, long temporal-consistent animation videos with large motions, which is not achievable in previous works. Our code and model are available at https://luckyhzt.github.io/lvcd.

Summary

AI-Generated Summary

PDF257November 16, 2024