MeshFormer: 3D-지도 재구성을 이용한 고품질 메쉬 생성 모델

MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

August 19, 2024
저자: Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su
cs.AI

초록

최근에는 오픈 월드 3D 재구성 모델이 상당한 관심을 받고 있습니다. 그러나 충분한 3D 내재적 편향이 없으면 기존 방법은 일반적으로 비용이 많이 들고 고품질 3D 메쉬를 추출하는 데 어려움을 겪습니다. 본 연구에서는 3D 원본 구조, 입력 안내 및 교육 감독을 명시적으로 활용하는 희소 뷰 재구성 모델인 MeshFormer를 소개합니다. 구체적으로, 삼면체 표현 대신 3D 희소 복셀에 특징을 저장하고 3D 컨볼루션과 트랜스포머를 결합하여 명시적 3D 구조와 투영 편향을 활용합니다. 희소 뷰 RGB 입력 외에도 네트워크가 입력을 받고 해당하는 법선 맵을 생성하도록 요구합니다. 입력 법선 맵은 2D 확산 모델에 의해 예측될 수 있으며, 이는 지오메트리 학습의 안내와 정제에 큰 도움이 됩니다. 또한, 서피스 렌더링과 Signed Distance Function (SDF) 감독을 결합함으로써, 복잡한 다단계 교육 과정이 필요하지 않고 고품질 메쉬를 직접 생성하는 방법을 배우게 됩니다. 이러한 명시적 3D 편향을 통합함으로써, MeshFormer는 효율적으로 교육을 받고 섬세한 기하학적 세부 사항이 담긴 고품질의 질감이 있는 메쉬를 제공할 수 있습니다. 또한, 2D 확산 모델과 통합하여 빠른 단일 이미지에서 3D 및 텍스트에서 3D 작업을 가능하게 할 수 있습니다. 프로젝트 페이지: https://meshformer3d.github.io
English
Open-world 3D reconstruction models have recently garnered significant attention. However, without sufficient 3D inductive bias, existing methods typically entail expensive training costs and struggle to extract high-quality 3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction model that explicitly leverages 3D native structure, input guidance, and training supervision. Specifically, instead of using a triplane representation, we store features in 3D sparse voxels and combine transformers with 3D convolutions to leverage an explicit 3D structure and projective bias. In addition to sparse-view RGB input, we require the network to take input and generate corresponding normal maps. The input normal maps can be predicted by 2D diffusion models, significantly aiding in the guidance and refinement of the geometry's learning. Moreover, by combining Signed Distance Function (SDF) supervision with surface rendering, we directly learn to generate high-quality meshes without the need for complex multi-stage training processes. By incorporating these explicit 3D biases, MeshFormer can be trained efficiently and deliver high-quality textured meshes with fine-grained geometric details. It can also be integrated with 2D diffusion models to enable fast single-image-to-3D and text-to-3D tasks. Project page: https://meshformer3d.github.io

Summary

AI-Generated Summary

PDF353November 19, 2024