IDOL: 단일 이미지로부터 즉각적인 포토리얼리스틱 3D 인간 생성
IDOL: Instant Photorealistic 3D Human Creation from a Single Image
December 19, 2024
저자: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI
초록
단일 이미지로부터 고품질이며 애니메이션 가능한 3D 풀 바디 아바타를 생성하는 것은 인간의 다양한 외모와 자세, 그리고 고품질 훈련 데이터의 제한된 가용성으로 인해 어려운 과제입니다. 빠르고 고품질의 인간 재구성을 달성하기 위해 본 연구는 데이터셋, 모델 및 표현의 관점에서 이 작업을 재고했습니다. 먼저, 24개의 특정 인간 자세를 포함하는 100,000개의 다양하고 사실적인 인간 이미지 세트로 구성된 대규모 HUman-centric GEnerated 데이터셋인 HuGe100K를 소개합니다. 각 세트는 포즈 제어가 가능한 이미지에서 생성된 24개의 뷰 프레임을 포함합니다. 그 다음, HuGe100K 내의 다양성을 활용하여, 다양한 뷰, 자세, 그리고 외모를 활용하여 주어진 인간 이미지로부터 균일한 공간에서 3D 인간 가우시안 표현을 예측하기 위한 확장 가능한 피드포워드 트랜스포머 모델을 개발했습니다. 이 모델은 인간 자세, 몸 형태, 의류 기하학, 그리고 질감을 분리하여 훈련됩니다. 추정된 가우시안은 후처리 없이 애니메이션화될 수 있습니다. 제안된 데이터셋과 방법의 효과를 검증하기 위해 포괄적인 실험을 실시했습니다. 우리의 모델은 단일 GPU를 사용하여 단일 입력 이미지로부터 1K 해상도에서 실시간으로 사실적인 인간을 효율적으로 재구성할 수 있는 능력을 보여줍니다. 게다가, 다양한 응용 프로그램을 원활하게 지원하며, 형태 및 질감 편집 작업도 지원합니다.
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image
is a challenging task due to the diverse appearance and poses of humans and the
limited availability of high-quality training data. To achieve fast and
high-quality human reconstruction, this work rethinks the task from the
perspectives of dataset, model, and representation. First, we introduce a
large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K
diverse, photorealistic sets of human images. Each set contains 24-view frames
in specific human poses, generated using a pose-controllable
image-to-multi-view model. Next, leveraging the diversity in views, poses, and
appearances within HuGe100K, we develop a scalable feed-forward transformer
model to predict a 3D human Gaussian representation in a uniform space from a
given human image. This model is trained to disentangle human pose, body shape,
clothing geometry, and texture. The estimated Gaussians can be animated without
post-processing. We conduct comprehensive experiments to validate the
effectiveness of the proposed dataset and method. Our model demonstrates the
ability to efficiently reconstruct photorealistic humans at 1K resolution from
a single input image using a single GPU instantly. Additionally, it seamlessly
supports various applications, as well as shape and texture editing tasks.