ChatPaper.aiChatPaper

FRESA: Прямое восстановление персонализированных скиннированных аватаров по нескольким изображениям

FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

March 24, 2025
Авторы: Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
cs.AI

Аннотация

Мы представляем новый метод для реконструкции персонализированных 3D-аватаров человека с реалистичной анимацией, используя лишь несколько изображений. Из-за значительных вариаций в формах тела, позах и типах одежды существующие методы в основном требуют часов оптимизации для каждого субъекта на этапе вывода, что ограничивает их практическое применение. В отличие от них, мы обучаем универсальный априорный шаблон на основе более тысячи одетых людей, что позволяет достичь мгновенного генеративного вывода и обобщения с нулевым обучением. В частности, вместо использования общих весов скиннинга для аватара, мы совместно выводим персонализированную форму аватара, веса скиннинга и деформации, зависящие от позы, что эффективно повышает общую геометрическую точность и уменьшает артефакты деформации. Кроме того, для нормализации вариаций поз и устранения связанной неоднозначности между каноническими формами и весами скиннинга, мы разработали процесс 3D-канонизации, который создает пиксельно-выровненные начальные условия, что помогает восстанавливать мелкозернистые геометрические детали. Затем мы предлагаем агрегацию признаков по нескольким кадрам для устойчивого уменьшения артефактов, возникающих при канонизации, и объединения правдоподобного аватара, сохраняющего индивидуальные особенности человека. Наконец, мы обучаем модель в сквозной структуре на крупномасштабном наборе данных, содержащем разнообразных субъектов с высококачественными 3D-сканами. Многочисленные эксперименты показывают, что наш метод обеспечивает более достоверную реконструкцию и анимацию по сравнению с современными подходами и может быть непосредственно обобщен на входные данные, полученные с помощью случайных фотографий с телефона. Страница проекта и код доступны по адресу https://github.com/rongakowang/FRESA.
English
We present a novel method for reconstructing personalized 3D human avatars with realistic animation from only a few images. Due to the large variations in body shapes, poses, and cloth types, existing methods mostly require hours of per-subject optimization during inference, which limits their practical applications. In contrast, we learn a universal prior from over a thousand clothed humans to achieve instant feedforward generation and zero-shot generalization. Specifically, instead of rigging the avatar with shared skinning weights, we jointly infer personalized avatar shape, skinning weights, and pose-dependent deformations, which effectively improves overall geometric fidelity and reduces deformation artifacts. Moreover, to normalize pose variations and resolve coupled ambiguity between canonical shapes and skinning weights, we design a 3D canonicalization process to produce pixel-aligned initial conditions, which helps to reconstruct fine-grained geometric details. We then propose a multi-frame feature aggregation to robustly reduce artifacts introduced in canonicalization and fuse a plausible avatar preserving person-specific identities. Finally, we train the model in an end-to-end framework on a large-scale capture dataset, which contains diverse human subjects paired with high-quality 3D scans. Extensive experiments show that our method generates more authentic reconstruction and animation than state-of-the-arts, and can be directly generalized to inputs from casually taken phone photos. Project page and code is available at https://github.com/rongakowang/FRESA.

Summary

AI-Generated Summary

PDF42March 26, 2025