FRESA: Прямое восстановление персонализированных скиннированных аватаров по нескольким изображениям
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
March 24, 2025
Авторы: Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
cs.AI
Аннотация
Мы представляем новый метод для реконструкции персонализированных 3D-аватаров человека с реалистичной анимацией, используя лишь несколько изображений. Из-за значительных вариаций в формах тела, позах и типах одежды существующие методы в основном требуют часов оптимизации для каждого субъекта на этапе вывода, что ограничивает их практическое применение. В отличие от них, мы обучаем универсальный априорный шаблон на основе более тысячи одетых людей, что позволяет достичь мгновенного генеративного вывода и обобщения с нулевым обучением. В частности, вместо использования общих весов скиннинга для аватара, мы совместно выводим персонализированную форму аватара, веса скиннинга и деформации, зависящие от позы, что эффективно повышает общую геометрическую точность и уменьшает артефакты деформации. Кроме того, для нормализации вариаций поз и устранения связанной неоднозначности между каноническими формами и весами скиннинга, мы разработали процесс 3D-канонизации, который создает пиксельно-выровненные начальные условия, что помогает восстанавливать мелкозернистые геометрические детали. Затем мы предлагаем агрегацию признаков по нескольким кадрам для устойчивого уменьшения артефактов, возникающих при канонизации, и объединения правдоподобного аватара, сохраняющего индивидуальные особенности человека. Наконец, мы обучаем модель в сквозной структуре на крупномасштабном наборе данных, содержащем разнообразных субъектов с высококачественными 3D-сканами. Многочисленные эксперименты показывают, что наш метод обеспечивает более достоверную реконструкцию и анимацию по сравнению с современными подходами и может быть непосредственно обобщен на входные данные, полученные с помощью случайных фотографий с телефона. Страница проекта и код доступны по адресу https://github.com/rongakowang/FRESA.
English
We present a novel method for reconstructing personalized 3D human avatars
with realistic animation from only a few images. Due to the large variations in
body shapes, poses, and cloth types, existing methods mostly require hours of
per-subject optimization during inference, which limits their practical
applications. In contrast, we learn a universal prior from over a thousand
clothed humans to achieve instant feedforward generation and zero-shot
generalization. Specifically, instead of rigging the avatar with shared
skinning weights, we jointly infer personalized avatar shape, skinning weights,
and pose-dependent deformations, which effectively improves overall geometric
fidelity and reduces deformation artifacts. Moreover, to normalize pose
variations and resolve coupled ambiguity between canonical shapes and skinning
weights, we design a 3D canonicalization process to produce pixel-aligned
initial conditions, which helps to reconstruct fine-grained geometric details.
We then propose a multi-frame feature aggregation to robustly reduce artifacts
introduced in canonicalization and fuse a plausible avatar preserving
person-specific identities. Finally, we train the model in an end-to-end
framework on a large-scale capture dataset, which contains diverse human
subjects paired with high-quality 3D scans. Extensive experiments show that our
method generates more authentic reconstruction and animation than
state-of-the-arts, and can be directly generalized to inputs from casually
taken phone photos. Project page and code is available at
https://github.com/rongakowang/FRESA.Summary
AI-Generated Summary