ChatPaper.aiChatPaper

LHM: Großes animierbares Modell zur Rekonstruktion von Menschen aus einem einzelnen Bild in Sekunden

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

March 13, 2025
Autoren: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
cs.AI

Zusammenfassung

Die Rekonstruktion animierbarer 3D-Menschen aus einem einzelnen Bild ist ein herausforderndes Problem aufgrund der Mehrdeutigkeit bei der Trennung von Geometrie, Erscheinungsbild und Verformung. Aktuelle Fortschritte in der 3D-Menschrekonstruktion konzentrieren sich hauptsächlich auf die statische Modellierung von Menschen, und die Abhängigkeit von synthetischen 3D-Scans für das Training begrenzt deren Generalisierungsfähigkeit. Im Gegensatz dazu erreichen optimierungsbasierte Video-Methoden eine höhere Detailtreue, erfordern jedoch kontrollierte Aufnahmebedingungen und rechenintensive Verfeinerungsprozesse. Angeregt durch die Entwicklung großer Rekonstruktionsmodelle für eine effiziente statische Rekonstruktion, schlagen wir LHM (Large Animatable Human Reconstruction Model) vor, um hochdetaillierte Avatare, die als 3D-Gaussian-Splatting dargestellt werden, in einem Vorwärtspass zu inferieren. Unser Modell nutzt eine multimodale Transformer-Architektur, um die Positionsmerkmale des menschlichen Körpers und Bildmerkmale effektiv mit einem Aufmerksamkeitsmechanismus zu kodieren, wodurch die detaillierte Erhaltung der Kleidungsgeometrie und -textur ermöglicht wird. Um die Erhaltung der Gesichtsidentität und die Wiederherstellung feiner Details weiter zu verbessern, schlagen wir ein Pyramidencodierungsschema für Kopfmerkmale vor, um mehrskalige Merkmale der Kopfregionen zu aggregieren. Umfangreiche Experimente zeigen, dass unser LHM plausible animierbare Menschen in Sekunden ohne Nachbearbeitung für Gesicht und Hände erzeugt und dabei bestehende Methoden sowohl in der Rekonstruktionsgenauigkeit als auch in der Generalisierungsfähigkeit übertrifft.
English
Animatable 3D human reconstruction from a single image is a challenging problem due to the ambiguity in decoupling geometry, appearance, and deformation. Recent advances in 3D human reconstruction mainly focus on static human modeling, and the reliance of using synthetic 3D scans for training limits their generalization ability. Conversely, optimization-based video methods achieve higher fidelity but demand controlled capture conditions and computationally intensive refinement processes. Motivated by the emergence of large reconstruction models for efficient static reconstruction, we propose LHM (Large Animatable Human Reconstruction Model) to infer high-fidelity avatars represented as 3D Gaussian splatting in a feed-forward pass. Our model leverages a multimodal transformer architecture to effectively encode the human body positional features and image features with attention mechanism, enabling detailed preservation of clothing geometry and texture. To further boost the face identity preservation and fine detail recovery, we propose a head feature pyramid encoding scheme to aggregate multi-scale features of the head regions. Extensive experiments demonstrate that our LHM generates plausible animatable human in seconds without post-processing for face and hands, outperforming existing methods in both reconstruction accuracy and generalization ability.

Summary

AI-Generated Summary

PDF284March 21, 2025