ChatPaper.aiChatPaper

DINeMo: Lernen neuronaler Netzmodelle für Meshes ohne 3D-Annotationen

DINeMo: Learning Neural Mesh Models with no 3D Annotations

March 26, 2025
Autoren: Weijie Guo, Guofeng Zhang, Wufei Ma, Alan Yuille
cs.AI

Zusammenfassung

Die Kategorie-basierte 3D/6D-Posenschätzung ist ein entscheidender Schritt hin zu einem umfassenden Verständnis von 3D-Szenen, was eine Vielzahl von Anwendungen in der Robotik und der verkörperten KI ermöglichen würde. Neuere Arbeiten haben neuronale Netzmodelle untersucht, die eine Reihe von 2D- und 3D-Aufgaben aus einer Analyse-durch-Synthese-Perspektive angehen. Trotz der deutlich verbesserten Robustheit gegenüber teilweiser Verdeckung und Domänenverschiebungen waren diese Methoden stark auf 3D-Annotationen für teil-kontrastives Lernen angewiesen, was sie auf eine begrenzte Anzahl von Kategorien beschränkt und eine effiziente Skalierung behindert. In dieser Arbeit stellen wir DINeMo vor, ein neuartiges neuronales Netzmodell, das ohne 3D-Annotationen trainiert wird, indem es Pseudo-Korrespondenzen nutzt, die aus großen visuellen Grundlagenmodellen gewonnen werden. Wir verwenden eine bidirektionale Methode zur Erzeugung von Pseudo-Korrespondenzen, die sowohl lokale Erscheinungsmerkmale als auch globale Kontextinformationen nutzt. Experimentelle Ergebnisse auf Auto-Datensätzen zeigen, dass unser DINeMo die bisherige Null- und Few-Shot-3D-Posenschätzung deutlich übertrifft und die Lücke zu vollständig überwachten Methoden um 67,3 % verringert. Unser DINeMo skaliert auch effektiv und effizient, wenn während des Trainings mehr unmarkierte Bilder einbezogen werden, was die Vorteile gegenüber überwachten Lernmethoden, die auf 3D-Annotationen angewiesen sind, demonstriert. Unsere Projektseite ist verfügbar unter https://analysis-by-synthesis.github.io/DINeMo/.
English
Category-level 3D/6D pose estimation is a crucial step towards comprehensive 3D scene understanding, which would enable a broad range of applications in robotics and embodied AI. Recent works explored neural mesh models that approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective. Despite the largely enhanced robustness to partial occlusion and domain shifts, these methods depended heavily on 3D annotations for part-contrastive learning, which confines them to a narrow set of categories and hinders efficient scaling. In this work, we present DINeMo, a novel neural mesh model that is trained with no 3D annotations by leveraging pseudo-correspondence obtained from large visual foundation models. We adopt a bidirectional pseudo-correspondence generation method, which produce pseudo correspondence utilize both local appearance features and global context information. Experimental results on car datasets demonstrate that our DINeMo outperforms previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively and efficiently when incorporating more unlabeled images during training, which demonstrate the advantages over supervised learning methods that rely on 3D annotations. Our project page is available at https://analysis-by-synthesis.github.io/DINeMo/.

Summary

AI-Generated Summary

PDF32March 27, 2025