ChatPaper.aiChatPaper

V^3: 스트리밍 가능한 2D 동적 가우시안을 통해 모바일에서 부피 비디오 보기

V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

September 20, 2024
저자: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI

초록

고품질 부피 비디오를 2D 비디오와 동등하게 매끄럽게 경험하는 것은 오래된 꿈입니다. 그러나 현재의 동적 3D 그래픽 시스템 방법은 높은 렌더링 품질에도 불구하고, 계산 및 대역폭 제약으로 인해 모바일 장치에서 스트리밍에 어려움을 겪고 있습니다. 본 논문에서는 동적 가우시안을 스트리밍을 통해 고품질 모바일 렌더링을 가능하게 하는 새로운 접근 방식인 V3(Viewing Volumetric Videos)를 소개합니다. 우리의 주요 혁신은 동적 3D 그래픽 시스템을 2D 비디오로 간주하여 하드웨어 비디오 코덱의 사용을 용이하게 하는 것입니다. 또한, 우리는 저장 요구 사항을 줄이기 위해 해시 인코딩과 얕은 MLP를 사용하는 두 단계의 훈련 전략을 제안합니다. 첫 번째 단계에서는 움직임을 학습하기 위해 해시 인코딩과 얕은 MLP를 사용하고, 그런 다음 스트리밍 요구 사항을 충족하기 위해 가우시안의 수를 가지치기를 통해 줄입니다. 두 번째 단계에서는 잔여 엔트로피 손실 및 시간 손실을 사용하여 다른 가우시안 특성을 미세 조정하여 시간적 연속성을 향상시킵니다. 이 움직임과 외형을 분리하는 전략은 고품질 렌더링 품질을 유지하면서 콤팩트한 저장 요구 사항을 충족합니다. 한편, 우리는 2D 가우시안 비디오를 디코딩하고 렌더링하는 멀티 플랫폼 플레이어를 설계했습니다. 광범위한 실험은 V3의 효과를 입증하며, 일반 장치에서 고품질 렌더링과 스트리밍을 가능하게 함으로써 다른 방법을 능가함을 보여줍니다. 모바일 장치에서 동적 가우시안을 스트리밍하는 첫 번째로, 우리의 동반 플레이어는 사용자에게 원활한 스크롤링 및 즉각적인 공유를 포함한 전례없는 부피 비디오 경험을 제공합니다. 소스 코드가 포함된 프로젝트 페이지는 https://authoritywang.github.io/v3/에서 확인할 수 있습니다.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V3(Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.

Summary

AI-Generated Summary

PDF122November 16, 2024