FRESA: Ricostruzione Feedforward di Avatar Personalizzati con Scheletro da Poche Immagini
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
March 24, 2025
Autori: Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
cs.AI
Abstract
Presentiamo un metodo innovativo per ricostruire avatar 3D umani personalizzati con animazioni realistiche a partire da poche immagini. A causa delle ampie variazioni nelle forme del corpo, nelle pose e nei tipi di abbigliamento, i metodi esistenti richiedono principalmente ore di ottimizzazione per ogni soggetto durante l'inferenza, limitandone le applicazioni pratiche. Al contrario, apprendiamo un prior universale da oltre un migliaio di esseri umani vestiti per ottenere una generazione istantanea in feedforward e una generalizzazione zero-shot. Nello specifico, invece di dotare l'avatar di pesi di skinning condivisi, deduciamo congiuntamente la forma personalizzata dell'avatar, i pesi di skinning e le deformazioni dipendenti dalla posa, migliorando efficacemente la fedeltà geometrica complessiva e riducendo gli artefatti di deformazione. Inoltre, per normalizzare le variazioni di posa e risolvere l'ambiguità accoppiata tra forme canoniche e pesi di skinning, progettiamo un processo di canonizzazione 3D per produrre condizioni iniziali allineate ai pixel, che aiuta a ricostruire dettagli geometrici fini. Proponiamo quindi un'aggregazione di feature multi-frame per ridurre robustamente gli artefatti introdotti nella canonizzazione e fondere un avatar plausibile che preservi le identità specifiche della persona. Infine, addestriamo il modello in un framework end-to-end su un ampio dataset di acquisizione, che contiene soggetti umani diversi accoppiati con scansioni 3D di alta qualità. Esperimenti estensivi dimostrano che il nostro metodo genera ricostruzioni e animazioni più autentiche rispetto agli state-of-the-art e può essere direttamente generalizzato a input provenienti da foto casuali scattate con il telefono. La pagina del progetto e il codice sono disponibili all'indirizzo https://github.com/rongakowang/FRESA.
English
We present a novel method for reconstructing personalized 3D human avatars
with realistic animation from only a few images. Due to the large variations in
body shapes, poses, and cloth types, existing methods mostly require hours of
per-subject optimization during inference, which limits their practical
applications. In contrast, we learn a universal prior from over a thousand
clothed humans to achieve instant feedforward generation and zero-shot
generalization. Specifically, instead of rigging the avatar with shared
skinning weights, we jointly infer personalized avatar shape, skinning weights,
and pose-dependent deformations, which effectively improves overall geometric
fidelity and reduces deformation artifacts. Moreover, to normalize pose
variations and resolve coupled ambiguity between canonical shapes and skinning
weights, we design a 3D canonicalization process to produce pixel-aligned
initial conditions, which helps to reconstruct fine-grained geometric details.
We then propose a multi-frame feature aggregation to robustly reduce artifacts
introduced in canonicalization and fuse a plausible avatar preserving
person-specific identities. Finally, we train the model in an end-to-end
framework on a large-scale capture dataset, which contains diverse human
subjects paired with high-quality 3D scans. Extensive experiments show that our
method generates more authentic reconstruction and animation than
state-of-the-arts, and can be directly generalized to inputs from casually
taken phone photos. Project page and code is available at
https://github.com/rongakowang/FRESA.Summary
AI-Generated Summary