한 번의 촬영, 한 번의 대화: 단일 이미지에서 전신 대화 아바타
One Shot, One Talk: Whole-body Talking Avatar from a Single Image
December 2, 2024
저자: Jun Xiang, Yudong Guo, Leipeng Hu, Boyang Guo, Yancheng Yuan, Juyong Zhang
cs.AI
초록
현실적이고 애니메이션 가능한 아바타를 만들기 위해서는 여전히 다중 뷰 또는 단안 자체 회전 비디오가 필요하며, 대부분의 방법은 제스처와 표현에 대한 정밀한 제어가 부족합니다. 이 한계를 극복하기 위해 우리는 단일 이미지에서 전신 대화 아바타를 구성하는 과제에 대응합니다. 우리는 두 가지 중요한 문제, 즉 복잡한 동적 모델링과 새로운 제스처 및 표현에 대한 일반화에 대처하는 새로운 파이프라인을 제안합니다. 매끄러운 일반화를 달성하기 위해 최근 자세 안내 이미지-비디오 확산 모델을 활용하여 불완전한 비디오 프레임을 가짜 레이블로 생성합니다. 불일치하고 잡음이 많은 가짜 비디오에 의해 제기된 동적 모델링 과제를 극복하기 위해 우리는 밀접하게 결합된 3DGS-메쉬 하이브리드 아바타 표현을 소개하고 불완전한 레이블로 인한 불일치를 완화하기 위해 여러 가지 주요 규제를 적용합니다. 다양한 주제에 대한 포괄적인 실험은 우리의 방법이 단 하나의 이미지로부터 사실적이고 정확하게 애니메이션 가능하며 표현력이 풍부한 전신 대화 아바타를 만들 수 있음을 보여줍니다.
English
Building realistic and animatable avatars still requires minutes of
multi-view or monocular self-rotating videos, and most methods lack precise
control over gestures and expressions. To push this boundary, we address the
challenge of constructing a whole-body talking avatar from a single image. We
propose a novel pipeline that tackles two critical issues: 1) complex dynamic
modeling and 2) generalization to novel gestures and expressions. To achieve
seamless generalization, we leverage recent pose-guided image-to-video
diffusion models to generate imperfect video frames as pseudo-labels. To
overcome the dynamic modeling challenge posed by inconsistent and noisy
pseudo-videos, we introduce a tightly coupled 3DGS-mesh hybrid avatar
representation and apply several key regularizations to mitigate
inconsistencies caused by imperfect labels. Extensive experiments on diverse
subjects demonstrate that our method enables the creation of a photorealistic,
precisely animatable, and expressive whole-body talking avatar from just a
single image.Summary
AI-Generated Summary