FRESA: Feedforward Reconstructie van Gepersonaliseerde Geanimeerde Avatars uit Beperkte Afbeeldingen
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
March 24, 2025
Auteurs: Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
cs.AI
Samenvatting
We presenteren een nieuwe methode voor het reconstrueren van gepersonaliseerde 3D-menselijke avatars met realistische animatie op basis van slechts enkele afbeeldingen. Vanwege de grote variaties in lichaamsvormen, houdingen en kledingtypes vereisen bestaande methoden meestal uren aan optimalisatie per proefpersoon tijdens inferentie, wat hun praktische toepassingen beperkt. In tegenstelling hiermee leren wij een universele prior van meer dan duizend geklede mensen om directe feedforward-generatie en zero-shot generalisatie te bereiken. Specifiek, in plaats van de avatar uit te rusten met gedeelde skinning-gewichten, leiden we gezamenlijk de gepersonaliseerde avatar-vorm, skinning-gewichten en pose-afhankelijke vervormingen af, wat de algehele geometrische nauwkeurigheid effectief verbetert en vervormingsartefacten vermindert. Bovendien ontwerpen we, om pose-variaties te normaliseren en de gekoppelde ambiguïteit tussen canonieke vormen en skinning-gewichten op te lossen, een 3D-canonicalisatieproces om pixel-uitgelijnde initiële condities te produceren, wat helpt bij het reconstrueren van fijnmazige geometrische details. Vervolgens stellen we een multi-frame feature-aggregatie voor om artefacten die tijdens de canonicalisatie zijn geïntroduceerd robuust te verminderen en een geloofwaardige avatar te fuseren die persoonsspecifieke identiteiten behoudt. Ten slotte trainen we het model in een end-to-end framework op een grootschalige capture-dataset, die diverse menselijke proefpersonen bevat die zijn gekoppeld aan hoogwaardige 3D-scans. Uitgebreide experimenten tonen aan dat onze methode authentiekere reconstructie en animatie genereert dan state-of-the-art methoden, en kan worden gegeneraliseerd naar invoer van casual genomen telefoonfoto's. De projectpagina en code zijn beschikbaar op https://github.com/rongakowang/FRESA.
English
We present a novel method for reconstructing personalized 3D human avatars
with realistic animation from only a few images. Due to the large variations in
body shapes, poses, and cloth types, existing methods mostly require hours of
per-subject optimization during inference, which limits their practical
applications. In contrast, we learn a universal prior from over a thousand
clothed humans to achieve instant feedforward generation and zero-shot
generalization. Specifically, instead of rigging the avatar with shared
skinning weights, we jointly infer personalized avatar shape, skinning weights,
and pose-dependent deformations, which effectively improves overall geometric
fidelity and reduces deformation artifacts. Moreover, to normalize pose
variations and resolve coupled ambiguity between canonical shapes and skinning
weights, we design a 3D canonicalization process to produce pixel-aligned
initial conditions, which helps to reconstruct fine-grained geometric details.
We then propose a multi-frame feature aggregation to robustly reduce artifacts
introduced in canonicalization and fuse a plausible avatar preserving
person-specific identities. Finally, we train the model in an end-to-end
framework on a large-scale capture dataset, which contains diverse human
subjects paired with high-quality 3D scans. Extensive experiments show that our
method generates more authentic reconstruction and animation than
state-of-the-arts, and can be directly generalized to inputs from casually
taken phone photos. Project page and code is available at
https://github.com/rongakowang/FRESA.Summary
AI-Generated Summary