IDOL: Criação Humana 3D Instantânea e Fotorrealista a partir de uma Única Imagem
IDOL: Instant Photorealistic 3D Human Creation from a Single Image
December 19, 2024
Autores: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI
Resumo
Criar um avatar 3D de corpo inteiro altamente fiel e animável a partir de uma única imagem é uma tarefa desafiadora devido à aparência e poses diversas dos seres humanos e à disponibilidade limitada de dados de treinamento de alta qualidade. Para alcançar uma reconstrução humana rápida e de alta qualidade, este trabalho repensa a tarefa a partir das perspectivas do conjunto de dados, modelo e representação. Primeiramente, introduzimos um conjunto de dados gerado centrado em humanos em larga escala, o HuGe100K, composto por 100 mil conjuntos diversos e fotorrealistas de imagens humanas. Cada conjunto contém quadros de 24 visualizações em poses humanas específicas, geradas usando um modelo de imagem para múltiplas visualizações controlável por pose. Em seguida, aproveitando a diversidade de visualizações, poses e aparências dentro do HuGe100K, desenvolvemos um modelo transformador feed-forward escalável para prever uma representação gaussiana humana 3D em um espaço uniforme a partir de uma imagem humana fornecida. Este modelo é treinado para desembaraçar a pose humana, forma do corpo, geometria da roupa e textura. As gaussianas estimadas podem ser animadas sem pós-processamento. Realizamos experimentos abrangentes para validar a eficácia do conjunto de dados e método propostos. Nosso modelo demonstra a capacidade de reconstruir eficientemente seres humanos fotorrealistas em resolução de 1K a partir de uma única imagem de entrada usando uma única GPU instantaneamente. Além disso, ele suporta perfeitamente várias aplicações, bem como tarefas de edição de forma e textura.
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image
is a challenging task due to the diverse appearance and poses of humans and the
limited availability of high-quality training data. To achieve fast and
high-quality human reconstruction, this work rethinks the task from the
perspectives of dataset, model, and representation. First, we introduce a
large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K
diverse, photorealistic sets of human images. Each set contains 24-view frames
in specific human poses, generated using a pose-controllable
image-to-multi-view model. Next, leveraging the diversity in views, poses, and
appearances within HuGe100K, we develop a scalable feed-forward transformer
model to predict a 3D human Gaussian representation in a uniform space from a
given human image. This model is trained to disentangle human pose, body shape,
clothing geometry, and texture. The estimated Gaussians can be animated without
post-processing. We conduct comprehensive experiments to validate the
effectiveness of the proposed dataset and method. Our model demonstrates the
ability to efficiently reconstruct photorealistic humans at 1K resolution from
a single input image using a single GPU instantly. Additionally, it seamlessly
supports various applications, as well as shape and texture editing tasks.Summary
AI-Generated Summary