FRESA: Vorwärtsgerichtete Rekonstruktion personalisierter Skinned Avatare aus wenigen Bildern
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
March 24, 2025
Autoren: Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
cs.AI
Zusammenfassung
Wir präsentieren eine neuartige Methode zur Rekonstruktion personalisierter 3D-Menschavatare mit realistischer Animation aus nur wenigen Bildern. Aufgrund der großen Variationen in Körperformen, Posen und Kleidungstypen benötigen bestehende Methoden meist Stunden der pro-Person-Optimierung während der Inferenz, was ihre praktische Anwendbarkeit einschränkt. Im Gegensatz dazu lernen wir ein universelles Prior aus über tausend bekleideten Menschen, um eine sofortige Feedforward-Generierung und Zero-Shot-Generalisierung zu erreichen. Konkret inferieren wir anstelle der Verwendung gemeinsamer Skinning-Gewichte für den Avatar gemeinsam die personalisierte Avatarform, Skinning-Gewichte und posenabhängige Deformationen, was die geometrische Treue insgesamt verbessert und Deformationsartefakte reduziert. Darüber hinaus entwerfen wir einen 3D-Kanonisierungsprozess, um Pose-Variationen zu normalisieren und die gekoppelte Unschärfe zwischen kanonischen Formen und Skinning-Gewichten aufzulösen, was pixelgenaue Ausgangsbedingungen erzeugt und die Rekonstruktion feiner geometrischer Details unterstützt. Anschließend schlagen wir eine Multi-Frame-Feature-Aggregation vor, um Artefakte, die während der Kanonisierung eingeführt werden, robust zu reduzieren und einen plausiblen Avatar zu fusionieren, der personenspezifische Identitäten bewahrt. Schließlich trainieren wir das Modell in einem End-to-End-Framework auf einem groß angelegten Aufnahmedatensatz, der diverse menschliche Probanden mit hochwertigen 3D-Scans kombiniert. Umfangreiche Experimente zeigen, dass unsere Methode authentischere Rekonstruktionen und Animationen erzeugt als der Stand der Technik und direkt auf Eingaben von zufällig aufgenommenen Handyfotos verallgemeinert werden kann. Projektseite und Code sind verfügbar unter https://github.com/rongakowang/FRESA.
English
We present a novel method for reconstructing personalized 3D human avatars
with realistic animation from only a few images. Due to the large variations in
body shapes, poses, and cloth types, existing methods mostly require hours of
per-subject optimization during inference, which limits their practical
applications. In contrast, we learn a universal prior from over a thousand
clothed humans to achieve instant feedforward generation and zero-shot
generalization. Specifically, instead of rigging the avatar with shared
skinning weights, we jointly infer personalized avatar shape, skinning weights,
and pose-dependent deformations, which effectively improves overall geometric
fidelity and reduces deformation artifacts. Moreover, to normalize pose
variations and resolve coupled ambiguity between canonical shapes and skinning
weights, we design a 3D canonicalization process to produce pixel-aligned
initial conditions, which helps to reconstruct fine-grained geometric details.
We then propose a multi-frame feature aggregation to robustly reduce artifacts
introduced in canonicalization and fuse a plausible avatar preserving
person-specific identities. Finally, we train the model in an end-to-end
framework on a large-scale capture dataset, which contains diverse human
subjects paired with high-quality 3D scans. Extensive experiments show that our
method generates more authentic reconstruction and animation than
state-of-the-arts, and can be directly generalized to inputs from casually
taken phone photos. Project page and code is available at
https://github.com/rongakowang/FRESA.Summary
AI-Generated Summary