VividFace: 고품질 비디오 얼굴 교체를 위한 확산 기반 하이브리드 프레임워크
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping
December 15, 2024
저자: Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
cs.AI
초록
비디오 얼굴 교체는 다양한 응용 프로그램에서 점점 인기를 얻고 있지만, 기존 방법은 주로 정적 이미지에 초점을 맞추고 있으며 시간적 일관성과 복잡한 시나리오 때문에 비디오 얼굴 교체에 어려움을 겪고 있습니다. 본 논문에서는 비디오 얼굴 교체를 위해 특별히 설계된 최초의 확산 기반 프레임워크를 제안합니다. 저희 방법은 풍부한 정적 이미지 데이터와 시간적 비디오 시퀀스를 활용하는 새로운 이미지-비디오 하이브리드 훈련 프레임워크를 도입하여 비디오 전용 훈련의 내재적 한계를 해결합니다. 이 프레임워크는 VidFaceVAE와 결합된 특별히 설계된 확산 모델을 통해 생성된 비디오의 시간적 일관성을 더 잘 유지할 수 있도록 두 유형의 데이터를 효과적으로 처리합니다. 신원과 자세 특징을 더욱 분리하기 위해 속성-신원 분리 삼쌍체(AIDT) 데이터셋을 구축했으며, 각 삼쌍체는 세 개의 얼굴 이미지를 포함하며 두 이미지는 같은 자세를 공유하고 두 이미지는 같은 신원을 공유합니다. 이 데이터셋은 종합적인 가리기 증강을 통해 강화되어 가리기에 대한 강건성도 향상시킵니다. 또한, 큰 자세 변화를 다루기 위해 3D 재구성 기술을 네트워크의 입력 조건으로 통합합니다. 광범위한 실험 결과, 저희 프레임워크가 기존 방법에 비해 신원 보존, 시간적 일관성 및 시각적 품질에서 우수한 성능을 달성하며, 추론 단계가 적게 필요합니다. 저희 방법은 시간적 깜빡임, 신원 보존, 가리기 및 자세 변화에 대한 강건성과 같은 비디오 얼굴 교체의 주요 도전 과제를 효과적으로 완화합니다.
English
Video face swapping is becoming increasingly popular across various
applications, yet existing methods primarily focus on static images and
struggle with video face swapping because of temporal consistency and complex
scenarios. In this paper, we present the first diffusion-based framework
specifically designed for video face swapping. Our approach introduces a novel
image-video hybrid training framework that leverages both abundant static image
data and temporal video sequences, addressing the inherent limitations of
video-only training. The framework incorporates a specially designed diffusion
model coupled with a VidFaceVAE that effectively processes both types of data
to better maintain temporal coherence of the generated videos. To further
disentangle identity and pose features, we construct the Attribute-Identity
Disentanglement Triplet (AIDT) Dataset, where each triplet has three face
images, with two images sharing the same pose and two sharing the same
identity. Enhanced with a comprehensive occlusion augmentation, this dataset
also improves robustness against occlusions. Additionally, we integrate 3D
reconstruction techniques as input conditioning to our network for handling
large pose variations. Extensive experiments demonstrate that our framework
achieves superior performance in identity preservation, temporal consistency,
and visual quality compared to existing methods, while requiring fewer
inference steps. Our approach effectively mitigates key challenges in video
face swapping, including temporal flickering, identity preservation, and
robustness to occlusions and pose variations.