ChatPaper.aiChatPaper

TaoAvatar: Echtzeitfähige, lebensechte Ganzkörper-Avatare für Augmented Reality mittels 3D-Gaussian-Splatting

TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

March 21, 2025
Autoren: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI

Zusammenfassung

Realistische 3D-Ganzkörper-Avatare mit Sprechfunktion bergen großes Potenzial in der AR, mit Anwendungen, die von E-Commerce-Livestreaming bis hin zu holografischer Kommunikation reichen. Trotz Fortschritten bei der 3D-Gaussian-Splatting-Technik (3DGS) für lebensechte Avatar-Erstellung kämpfen bestehende Methoden mit der feingranularen Steuerung von Gesichtsausdrücken und Körperbewegungen in Ganzkörper-Sprechaufgaben. Zudem fehlt es ihnen oft an ausreichenden Details, und sie können nicht in Echtzeit auf mobilen Geräten laufen. Wir präsentieren TaoAvatar, einen hochauflösenden, leichtgewichtigen, 3DGS-basierten Ganzkörper-Sprechavatar, der durch verschiedene Signale gesteuert wird. Unser Ansatz beginnt mit der Erstellung einer personalisierten, bekleideten menschlichen parametrischen Vorlage, die Gaussians bindet, um das Erscheinungsbild darzustellen. Anschließend trainieren wir ein StyleUnet-basiertes Netzwerk vor, um komplexe, posenabhängige nicht-rigide Verformungen zu handhaben, die hochfrequente Erscheinungsdetails erfassen können, aber für mobile Geräte zu ressourcenintensiv sind. Um dies zu überwinden, „backen“ wir die nicht-rigiden Verformungen in ein leichtgewichtiges MLP-basiertes Netzwerk ein, indem wir eine Destillationstechnik verwenden, und entwickeln Blend Shapes, um Details zu kompensieren. Umfangreiche Experimente zeigen, dass TaoAvatar eine state-of-the-art Renderqualität erreicht, während es in Echtzeit auf verschiedenen Geräten läuft und 90 FPS auf hochauflösenden Stereo-Geräten wie dem Apple Vision Pro beibehält.
English
Realistic 3D full-body talking avatars hold great potential in AR, with applications ranging from e-commerce live streaming to holographic communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike avatar creation, existing methods struggle with fine-grained control of facial expressions and body movements in full-body talking tasks. Additionally, they often lack sufficient details and cannot run in real-time on mobile devices. We present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking avatar driven by various signals. Our approach starts by creating a personalized clothed human parametric template that binds Gaussians to represent appearances. We then pre-train a StyleUnet-based network to handle complex pose-dependent non-rigid deformation, which can capture high-frequency appearance details but is too resource-intensive for mobile devices. To overcome this, we "bake" the non-rigid deformations into a lightweight MLP-based network using a distillation technique and develop blend shapes to compensate for details. Extensive experiments show that TaoAvatar achieves state-of-the-art rendering quality while running in real-time across various devices, maintaining 90 FPS on high-definition stereo devices such as the Apple Vision Pro.

Summary

AI-Generated Summary

PDF232March 24, 2025