다중 모달 생성 사전에 의해 강화된 초상 영상 편집
Portrait Video Editing Empowered by Multimodal Generative Priors
September 20, 2024
저자: Xuan Gao, Haiyao Xiao, Chenglai Zhong, Shimin Hu, Yudong Guo, Juyong Zhang
cs.AI
초록
PortraitGen은 다중 모달 프롬프트를 사용하여 일관된 표현과 효과적인 스타일 적용을 달성하는 강력한 초상화 비디오 편집 방법을 소개합니다. 기존의 초상화 비디오 편집 방법은 3D 및 시간적 일관성에 어려움을 겪고 있으며 렌더링 품질과 효율성이 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해 초상화 비디오 프레임을 통합된 동적 3D 가우시안 필드로 변환하여 프레임 간 구조적 및 시간적 일관성을 보장합니다. 더불어 우리는 정교한 스타일 편집을 가능하게 하며 초당 100FPS 이상의 렌더링 속도를 달성하는 새로운 신경 가우시안 텍스처 메커니즘을 설계했습니다. 우리의 접근 방식은 대규모 2D 생성 모델로부터 추출된 지식을 통해 다중 모달 입력을 통합합니다. 또한 표정 유사성 가이드 및 얼굴 인식 초상화 편집 모듈을 통합하여 반복적인 데이터셋 업데이트로 인한 저하 문제를 효과적으로 완화합니다. 광범위한 실험을 통해 우리의 방법이 시간적 일관성, 편집 효율성 및 우수한 렌더링 품질을 입증하였습니다. 제안된 방법의 폭넓은 적용 가능성은 텍스트 기반 편집, 이미지 기반 편집 및 재조명을 포함한 다양한 응용 프로그램을 통해 입증되었으며 비디오 편집 분야를 발전시키는 데 큰 잠재력을 갖고 있음을 강조합니다. 데모 비디오 및 공개된 코드는 우리의 프로젝트 페이지에서 확인할 수 있습니다: https://ustc3dv.github.io/PortraitGen/
English
We introduce PortraitGen, a powerful portrait video editing method that
achieves consistent and expressive stylization with multimodal prompts.
Traditional portrait video editing methods often struggle with 3D and temporal
consistency, and typically lack in rendering quality and efficiency. To address
these issues, we lift the portrait video frames to a unified dynamic 3D
Gaussian field, which ensures structural and temporal coherence across frames.
Furthermore, we design a novel Neural Gaussian Texture mechanism that not only
enables sophisticated style editing but also achieves rendering speed over
100FPS. Our approach incorporates multimodal inputs through knowledge distilled
from large-scale 2D generative models. Our system also incorporates expression
similarity guidance and a face-aware portrait editing module, effectively
mitigating degradation issues associated with iterative dataset updates.
Extensive experiments demonstrate the temporal consistency, editing efficiency,
and superior rendering quality of our method. The broad applicability of the
proposed approach is demonstrated through various applications, including
text-driven editing, image-driven editing, and relighting, highlighting its
great potential to advance the field of video editing. Demo videos and released
code are provided in our project page: https://ustc3dv.github.io/PortraitGen/Summary
AI-Generated Summary