DiMeR: Modell für entwirrte Mesh-Rekonstruktion
DiMeR: Disentangled Mesh Reconstruction Model
April 24, 2025
Autoren: Lutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen
cs.AI
Zusammenfassung
Mit der Verfügbarkeit groß angelegter 3D-Datensätze haben vorwärtsgerichtete 3D-Generierungsmodelle, wie das Large Reconstruction Model (LRM), erhebliche Aufmerksamkeit erlangt und bemerkenswerte Erfolge erzielt. Wir beobachten jedoch, dass RGB-Bilder oft zu widersprüchlichen Trainingszielen führen und die notwendige Klarheit für die Geometrierekonstruktion fehlt. In diesem Beitrag untersuchen wir die induktiven Verzerrungen im Zusammenhang mit der Mesh-Rekonstruktion und stellen DiMeR vor, ein neuartiges, entkoppeltes dual-stream vorwärtsgerichtetes Modell für die Rekonstruktion von Meshes aus spärlichen Ansichten. Die zentrale Idee besteht darin, sowohl die Eingabe als auch das Framework in Geometrie- und Texturteile zu entkoppeln, wodurch die Trainingsschwierigkeit für jeden Teil gemäß dem Prinzip von Occam's Razor reduziert wird. Da Normalmaps streng konsistent mit der Geometrie sind und Oberflächenvariationen präzise erfassen, verwenden wir Normalmaps als exklusive Eingabe für den Geometriezweig, um die Komplexität zwischen der Eingabe und der Ausgabe des Netzwerks zu verringern. Darüber hinaus verbessern wir den Mesh-Extraktionsalgorithmus, um eine 3D-Ground-Truth-Supervision einzuführen. Für den Texturzweig verwenden wir RGB-Bilder als Eingabe, um das texturierte Mesh zu erhalten. Insgesamt zeigt DiMeR robuste Fähigkeiten in verschiedenen Aufgaben, einschließlich der Rekonstruktion aus spärlichen Ansichten, der Einzelbild-zu-3D- und der Text-zu-3D-Rekonstruktion. Zahlreiche Experimente zeigen, dass DiMeR frühere Methoden deutlich übertrifft und eine Verbesserung von über 30 % in der Chamfer-Distanz auf den Datensätzen GSO und OmniObject3D erreicht.
English
With the advent of large-scale 3D datasets, feed-forward 3D generative
models, such as the Large Reconstruction Model (LRM), have gained significant
attention and achieved remarkable success. However, we observe that RGB images
often lead to conflicting training objectives and lack the necessary clarity
for geometry reconstruction. In this paper, we revisit the inductive biases
associated with mesh reconstruction and introduce DiMeR, a novel disentangled
dual-stream feed-forward model for sparse-view mesh reconstruction. The key
idea is to disentangle both the input and framework into geometry and texture
parts, thereby reducing the training difficulty for each part according to the
Principle of Occam's Razor. Given that normal maps are strictly consistent with
geometry and accurately capture surface variations, we utilize normal maps as
exclusive input for the geometry branch to reduce the complexity between the
network's input and output. Moreover, we improve the mesh extraction algorithm
to introduce 3D ground truth supervision. As for texture branch, we use RGB
images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust
capabilities across various tasks, including sparse-view reconstruction,
single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR
significantly outperforms previous methods, achieving over 30% improvement in
Chamfer Distance on the GSO and OmniObject3D dataset.Summary
AI-Generated Summary