DINeMo: Apprendimento di Modelli di Mesh Neurali senza Annotazioni 3D

Abstract

La stima della posa 3D/6D a livello di categoria è un passo cruciale verso una comprensione completa delle scene 3D, che abiliterebbe una vasta gamma di applicazioni nella robotica e nell'AI incarnata. Recenti lavori hanno esplorato modelli neurali a mesh che affrontano una serie di compiti 2D e 3D da una prospettiva di analisi per sintesi. Nonostante la maggiore robustezza alle occlusioni parziali e ai cambiamenti di dominio, questi metodi dipendevano fortemente da annotazioni 3D per l'apprendimento contrastivo delle parti, il che li confina a un insieme ristretto di categorie e ostacola una scalabilità efficiente. In questo lavoro, presentiamo DINeMo, un nuovo modello neurale a mesh che viene addestrato senza annotazioni 3D sfruttando pseudo-corrispondenze ottenute da grandi modelli visivi di base. Adottiamo un metodo bidirezionale di generazione di pseudo-corrispondenze, che produce pseudo-corrispondenze utilizzando sia caratteristiche locali di aspetto che informazioni contestuali globali. I risultati sperimentali su dataset di automobili dimostrano che il nostro DINeMo supera ampiamente i precedenti metodi di stima della posa 3D zero-shot e few-shot, riducendo il divario con i metodi completamente supervisionati del 67,3%. Il nostro DINeMo scala anche in modo efficace ed efficiente quando vengono incorporate più immagini non etichettate durante l'addestramento, dimostrando i vantaggi rispetto ai metodi di apprendimento supervisionato che si basano su annotazioni 3D. La nostra pagina del progetto è disponibile all'indirizzo https://analysis-by-synthesis.github.io/DINeMo/.

English

Category-level 3D/6D pose estimation is a crucial step towards comprehensive 3D scene understanding, which would enable a broad range of applications in robotics and embodied AI. Recent works explored neural mesh models that approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective. Despite the largely enhanced robustness to partial occlusion and domain shifts, these methods depended heavily on 3D annotations for part-contrastive learning, which confines them to a narrow set of categories and hinders efficient scaling. In this work, we present DINeMo, a novel neural mesh model that is trained with no 3D annotations by leveraging pseudo-correspondence obtained from large visual foundation models. We adopt a bidirectional pseudo-correspondence generation method, which produce pseudo correspondence utilize both local appearance features and global context information. Experimental results on car datasets demonstrate that our DINeMo outperforms previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively and efficiently when incorporating more unlabeled images during training, which demonstrate the advantages over supervised learning methods that rely on 3D annotations. Our project page is available at https://analysis-by-synthesis.github.io/DINeMo/.

DINeMo: Apprendimento di Modelli di Mesh Neurali senza Annotazioni 3D

DINeMo: Learning Neural Mesh Models with no 3D Annotations

Abstract

Summary

Support

Support