ChatPaper.aiChatPaper

IDOL: 単一画像からの即座の写実的な3D人物生成

IDOL: Instant Photorealistic 3D Human Creation from a Single Image

December 19, 2024
著者: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI

要旨

単一の画像から高精細でアニメーション可能な3Dフルボディアバターを作成することは、人間の多様な外見やポーズ、高品質なトレーニングデータの限られた入手可能性により、困難な課題です。迅速かつ高品質な人間の再構築を実現するために、この研究はデータセット、モデル、表現の観点から課題を再考します。まず、100Kの多様で写実的な人間画像セットである大規模な人間中心の生成データセット、HuGe100Kを紹介します。各セットには、特定の人間のポーズで生成された24ビューのフレームが含まれており、ポーズを制御可能な画像からマルチビューモデルを使用して生成されています。次に、HuGe100K内のビュー、ポーズ、外見の多様性を活用し、与えられた人間の画像から一様な空間内で3D人間のガウス表現を予測するためのスケーラブルなフィードフォワードトランスフォーマーモデルを開発します。このモデルは、人間のポーズ、体形、衣服のジオメトリ、テクスチャを分離するようにトレーニングされています。推定されたガウス関数は、事後処理なしでアニメーション化できます。提案されたデータセットと手法の効果を検証する包括的な実験を実施します。当該モデルは、単一のGPUを使用して、単一の入力画像から1Kの解像度で瞬時に写実的な人間を効率的に再構築する能力を示しています。さらに、さまざまなアプリケーションや形状、テクスチャの編集タスクをシームレスにサポートしています。
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image is a challenging task due to the diverse appearance and poses of humans and the limited availability of high-quality training data. To achieve fast and high-quality human reconstruction, this work rethinks the task from the perspectives of dataset, model, and representation. First, we introduce a large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K diverse, photorealistic sets of human images. Each set contains 24-view frames in specific human poses, generated using a pose-controllable image-to-multi-view model. Next, leveraging the diversity in views, poses, and appearances within HuGe100K, we develop a scalable feed-forward transformer model to predict a 3D human Gaussian representation in a uniform space from a given human image. This model is trained to disentangle human pose, body shape, clothing geometry, and texture. The estimated Gaussians can be animated without post-processing. We conduct comprehensive experiments to validate the effectiveness of the proposed dataset and method. Our model demonstrates the ability to efficiently reconstruct photorealistic humans at 1K resolution from a single input image using a single GPU instantly. Additionally, it seamlessly supports various applications, as well as shape and texture editing tasks.

Summary

AI-Generated Summary

PDF62December 23, 2024