ChatPaper.aiChatPaper

TalkinNeRF: 전신을 말하는 인간을 위한 애니메이션 가능한 신경장(fields)

TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans

September 25, 2024
저자: Aggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos
cs.AI

초록

우리는 단안 비디오로부터 전신을 말하는 인간의 동적 신경 광도장 필드(NeRF)를 학습하는 혁신적인 프레임워크를 소개합니다. 이전 연구는 몸의 자세나 얼굴만을 표현했습니다. 그러나 인간은 몸의 자세, 손 제스처, 그리고 얼굴 표정을 결합하여 전신으로 의사소통합니다. 본 연구에서는 전체적인 4D 인간 동작을 표현하는 통합 NeRF 기반 네트워크인 TalkinNeRF를 제안합니다. 주어진 주체의 단안 비디오로부터 몸, 얼굴, 손에 대한 해당 모듈을 학습하고 이를 결합하여 최종 결과물을 생성합니다. 복잡한 손가락 움직임을 포착하기 위해 손에 대한 추가 변형 필드를 학습합니다. 다중 신원 표현은 여러 주체에 대한 동시 학습과 완전히 새로운 자세에서도 견고한 애니메이션을 가능하게 합니다. 또한 입력으로 단지 짧은 비디오만을 제공하면 새로운 신원에 대해 일반화할 수 있습니다. 우리는 세밀한 손가락 움직임과 얼굴 표정을 가진 전신을 말하는 인간을 애니메이션화하는 최첨단 성능을 시연합니다.
English
We introduce a novel framework that learns a dynamic neural radiance field (NeRF) for full-body talking humans from monocular videos. Prior work represents only the body pose or the face. However, humans communicate with their full body, combining body pose, hand gestures, as well as facial expressions. In this work, we propose TalkinNeRF, a unified NeRF-based network that represents the holistic 4D human motion. Given a monocular video of a subject, we learn corresponding modules for the body, face, and hands, that are combined together to generate the final result. To capture complex finger articulation, we learn an additional deformation field for the hands. Our multi-identity representation enables simultaneous training for multiple subjects, as well as robust animation under completely unseen poses. It can also generalize to novel identities, given only a short video as input. We demonstrate state-of-the-art performance for animating full-body talking humans, with fine-grained hand articulation and facial expressions.

Summary

AI-Generated Summary

PDF72November 16, 2024