ChatPaper.aiChatPaper

인체 중심 체적 비디오를 위한 견고한 이중 가우시안 스플래팅

Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos

September 12, 2024
저자: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI

초록

부피 비디오는 시각 미디어에서 혁명적인 발전을 나타내며 사용자가 몰입형 가상 경험을 자유롭게 탐색하고 디지털과 현실 세계 사이의 간극을 좁히는 기능을 제공합니다. 그러나 기존 워크플로우에서 메쉬 시퀀스를 안정화하고 과도하게 큰 에셋을 생성하기 위해 방대한 수동 개입이 필요한 점이 널리 채택을 방해합니다. 본 논문에서는 복잡한 인간 퍼포먼스의 실시간 및 고품질 재생을 위한 새로운 가우시안 기반 접근 방식인 DualGS를 제안합니다. DualGS의 주요 아이디어는 해당 피부 및 관절 가우시안을 사용하여 동작과 외관을 별도로 표현하는 것입니다. 이러한 명시적 분리는 동작 중복성을 크게 줄이고 시간적 일관성을 향상시킬 수 있습니다. 우리는 DualGS를 초기화하고 첫 번째 프레임에서 피부 가우시안을 관절 가우시안에 고정시키는 것으로 시작합니다. 이후, 우리는 프레임별 인간 퍼포먼스 모델링을 위해 세밀한 정련 및 고품질 렌더링을 위한 대략적인 정렬 단계를 포함한 세밀한 최적화를 사용합니다. 부피 비디오를 VR 환경에 원활하게 통합하기 위해 우리는 엔트로피 부호화를 사용하여 동작을 효율적으로 압축하고 코덱 압축을 사용하여 외관을 압축하며 지속적인 코드북을 결합합니다. 우리의 접근 방식은 프레임 당 약 350KB 정도의 저장 공간만 필요로 하는 최대 120배의 압축 비율을 달성합니다. 우리는 VR 헤드셋에서 사진과 같은 자유로운 경험을 통해 사용자가 퍼포머의 손끝에서 음표의 리듬을 느끼며 음악가의 공연을 몰입적으로 감상할 수 있도록 우리의 표현의 효과를 입증합니다.
English
Volumetric video represents a transformative advancement in visual media, enabling users to freely navigate immersive virtual experiences and narrowing the gap between digital and real worlds. However, the need for extensive manual intervention to stabilize mesh sequences and the generation of excessively large assets in existing workflows impedes broader adoption. In this paper, we present a novel Gaussian-based approach, dubbed DualGS, for real-time and high-fidelity playback of complex human performance with excellent compression ratios. Our key idea in DualGS is to separately represent motion and appearance using the corresponding skin and joint Gaussians. Such an explicit disentanglement can significantly reduce motion redundancy and enhance temporal coherence. We begin by initializing the DualGS and anchoring skin Gaussians to joint Gaussians at the first frame. Subsequently, we employ a coarse-to-fine training strategy for frame-by-frame human performance modeling. It includes a coarse alignment phase for overall motion prediction as well as a fine-grained optimization for robust tracking and high-fidelity rendering. To integrate volumetric video seamlessly into VR environments, we efficiently compress motion using entropy encoding and appearance using codec compression coupled with a persistent codebook. Our approach achieves a compression ratio of up to 120 times, only requiring approximately 350KB of storage per frame. We demonstrate the efficacy of our representation through photo-realistic, free-view experiences on VR headsets, enabling users to immersively watch musicians in performance and feel the rhythm of the notes at the performers' fingertips.

Summary

AI-Generated Summary

PDF134November 16, 2024