DiMeR : Modèle de Reconstruction de Maillage Disentanglé
DiMeR: Disentangled Mesh Reconstruction Model
April 24, 2025
Auteurs: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI
Résumé
Avec l'avènement de jeux de données 3D à grande échelle, les modèles génératifs 3D à propagation avant, tels que le Large Reconstruction Model (LRM), ont suscité un intérêt considérable et obtenu des succès remarquables. Cependant, nous observons que les images RVB entraînent souvent des objectifs d'apprentissage conflictuels et manquent de la clarté nécessaire pour la reconstruction géométrique. Dans cet article, nous revisitons les biais inductifs associés à la reconstruction de maillages et introduisons DiMeR, un nouveau modèle à propagation avant à double flux désentrelacé pour la reconstruction de maillages à partir de vues éparses. L'idée clé est de désentrelacer à la fois l'entrée et le cadre en parties géométrie et texture, réduisant ainsi la difficulté d'apprentissage pour chaque partie selon le principe du rasoir d'Occam. Étant donné que les cartes normales sont strictement cohérentes avec la géométrie et capturent avec précision les variations de surface, nous utilisons les cartes normales comme entrée exclusive pour la branche géométrie afin de réduire la complexité entre l'entrée et la sortie du réseau. De plus, nous améliorons l'algorithme d'extraction de maillage pour introduire une supervision de vérité terrain 3D. Quant à la branche texture, nous utilisons les images RVB comme entrée pour obtenir le maillage texturé. Globalement, DiMeR démontre des capacités robustes dans diverses tâches, y compris la reconstruction à partir de vues éparses, la génération 3D à partir d'une seule image et la génération 3D à partir de texte. De nombreuses expériences montrent que DiMeR surpasse significativement les méthodes précédentes, avec une amélioration de plus de 30 % de la distance de Chamfer sur les jeux de données GSO et OmniObject3D.
English
With the advent of large-scale 3D datasets, feed-forward 3D generative
models, such as the Large Reconstruction Model (LRM), have gained significant
attention and achieved remarkable success. However, we observe that RGB images
often lead to conflicting training objectives and lack the necessary clarity
for geometry reconstruction. In this paper, we revisit the inductive biases
associated with mesh reconstruction and introduce DiMeR, a novel disentangled
dual-stream feed-forward model for sparse-view mesh reconstruction. The key
idea is to disentangle both the input and framework into geometry and texture
parts, thereby reducing the training difficulty for each part according to the
Principle of Occam's Razor. Given that normal maps are strictly consistent with
geometry and accurately capture surface variations, we utilize normal maps as
exclusive input for the geometry branch to reduce the complexity between the
network's input and output. Moreover, we improve the mesh extraction algorithm
to introduce 3D ground truth supervision. As for texture branch, we use RGB
images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust
capabilities across various tasks, including sparse-view reconstruction,
single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR
significantly outperforms previous methods, achieving over 30% improvement in
Chamfer Distance on the GSO and OmniObject3D dataset.Summary
AI-Generated Summary