IDOL: Creazione istantanea di umani 3D fotorealistici da un'unica immagine

IDOL: Instant Photorealistic 3D Human Creation from a Single Image

December 19, 2024
Autori: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI

Abstract

Creare un avatar 3D a figura intera ad alta fedeltà e animabile da un'unica immagine è un compito impegnativo a causa della variegata apparenza e delle pose umane e della limitata disponibilità di dati di addestramento di alta qualità. Per raggiungere una rapida e di alta qualità ricostruzione umana, questo lavoro riconsidera il compito dalle prospettive del dataset, del modello e della rappresentazione. Innanzitutto, introduciamo un dataset generato umano-centrico su larga scala, HuGe100K, composto da 100.000 insiemi diversi e fotorealistici di immagini umane. Ogni insieme contiene frame a 24 viste in pose umane specifiche, generate utilizzando un modello immagine-a-multi-vista controllabile dalla posa. Successivamente, sfruttando la diversità nelle viste, pose e apparenze all'interno di HuGe100K, sviluppiamo un modello trasformatore feed-forward scalabile per prevedere una rappresentazione gaussiana umana 3D in uno spazio uniforme da un'immagine umana data. Questo modello è addestrato a disaccoppiare la posa umana, la forma del corpo, la geometria dell'abbigliamento e la texture. Le gaussiane stimate possono essere animate senza post-elaborazione. Conduciamo esperimenti esaustivi per convalidare l'efficacia del dataset e del metodo proposti. Il nostro modello dimostra la capacità di ricostruire efficientemente esseri umani fotorealistici a risoluzione 1K da un'unica immagine di input utilizzando una singola GPU istantaneamente. Inoltre, supporta senza soluzione di continuità varie applicazioni, nonché compiti di modifica di forma e texture.
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image is a challenging task due to the diverse appearance and poses of humans and the limited availability of high-quality training data. To achieve fast and high-quality human reconstruction, this work rethinks the task from the perspectives of dataset, model, and representation. First, we introduce a large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K diverse, photorealistic sets of human images. Each set contains 24-view frames in specific human poses, generated using a pose-controllable image-to-multi-view model. Next, leveraging the diversity in views, poses, and appearances within HuGe100K, we develop a scalable feed-forward transformer model to predict a 3D human Gaussian representation in a uniform space from a given human image. This model is trained to disentangle human pose, body shape, clothing geometry, and texture. The estimated Gaussians can be animated without post-processing. We conduct comprehensive experiments to validate the effectiveness of the proposed dataset and method. Our model demonstrates the ability to efficiently reconstruct photorealistic humans at 1K resolution from a single input image using a single GPU instantly. Additionally, it seamlessly supports various applications, as well as shape and texture editing tasks.

Summary

AI-Generated Summary

PDF62December 23, 2024