DiMeR: Ontwarrend Mesh Reconstructiemodel
DiMeR: Disentangled Mesh Reconstruction Model
April 24, 2025
Auteurs: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI
Samenvatting
Met de opkomst van grootschalige 3D-datasets hebben feed-forward 3D-generatieve modellen, zoals het Large Reconstruction Model (LRM), aanzienlijke aandacht gekregen en opmerkelijke successen behaald. We merken echter dat RGB-beelden vaak leiden tot conflicterende trainingsdoelen en niet de nodige duidelijkheid bieden voor geometrische reconstructie. In dit artikel herzien we de inductieve vooroordelen die gepaard gaan met mesh-reconstructie en introduceren we DiMeR, een nieuw ontward dual-stream feed-forward model voor sparse-view mesh-reconstructie. Het kernidee is om zowel de invoer als het framework te ontwarren in geometrie- en textuuronderdelen, waardoor de trainingsmoeilijkheid voor elk onderdeel wordt verminderd volgens het principe van Ockhams scheermes. Gezien het feit dat normal maps strikt consistent zijn met geometrie en oppervlaktevariaties nauwkeurig vastleggen, gebruiken we normal maps als exclusieve invoer voor de geometrietak om de complexiteit tussen de invoer en uitvoer van het netwerk te verminderen. Bovendien verbeteren we het mesh-extractiealgoritme om 3D-grondwaarheidssupervisie te introduceren. Voor de textuurtak gebruiken we RGB-beelden als invoer om de getextureerde mesh te verkrijgen. Over het algemeen toont DiMeR robuuste capaciteiten in verschillende taken, waaronder sparse-view reconstructie, single-image-to-3D en text-to-3D. Talrijke experimenten tonen aan dat DiMeR eerdere methoden aanzienlijk overtreft, met een verbetering van meer dan 30% in Chamfer Distance op de GSO- en OmniObject3D-dataset.
English
With the advent of large-scale 3D datasets, feed-forward 3D generative
models, such as the Large Reconstruction Model (LRM), have gained significant
attention and achieved remarkable success. However, we observe that RGB images
often lead to conflicting training objectives and lack the necessary clarity
for geometry reconstruction. In this paper, we revisit the inductive biases
associated with mesh reconstruction and introduce DiMeR, a novel disentangled
dual-stream feed-forward model for sparse-view mesh reconstruction. The key
idea is to disentangle both the input and framework into geometry and texture
parts, thereby reducing the training difficulty for each part according to the
Principle of Occam's Razor. Given that normal maps are strictly consistent with
geometry and accurately capture surface variations, we utilize normal maps as
exclusive input for the geometry branch to reduce the complexity between the
network's input and output. Moreover, we improve the mesh extraction algorithm
to introduce 3D ground truth supervision. As for texture branch, we use RGB
images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust
capabilities across various tasks, including sparse-view reconstruction,
single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR
significantly outperforms previous methods, achieving over 30% improvement in
Chamfer Distance on the GSO and OmniObject3D dataset.Summary
AI-Generated Summary