Multiview equivariantie verbetert het begrip van driedimensionale overeenkomsten met minimale fijnafstemming van kenmerken.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning
November 29, 2024
Auteurs: Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
cs.AI
Samenvatting
Visie foundation modellen, met name de ViT-familie, hebben de beeldbegrip gerevolutioneerd door rijke semantische kenmerken te bieden. Echter, ondanks hun succes in 2D begrip, zijn hun vermogens om 3D ruimtelijke relaties te begrijpen nog steeds onduidelijk. In dit werk evalueren en verbeteren we het 3D bewustzijn van op ViT gebaseerde modellen. We beginnen met systematisch hun vermogen te beoordelen om 3D equivariante kenmerken te leren, waarbij we specifiek de consistentie van semantische insluitingen over verschillende gezichtspunten onderzoeken. Onze bevindingen geven aan dat verbeterde 3D equivariantie leidt tot betere prestaties op verschillende downstream taken, waaronder houdingschatting, tracking en semantische overdracht. Voortbouwend op deze inzichten stellen we een eenvoudige maar effectieve fine-tuning strategie voor op basis van 3D overeenkomsten, die aanzienlijk het begrip van 3D overeenkomsten van bestaande visiemodellen verbetert. Opmerkelijk is dat zelfs fine-tuning op een enkel object voor slechts één iteratie resulteert in aanzienlijke prestatieverbeteringen. Alle code en bronnen zullen openbaar beschikbaar worden gesteld ter ondersteuning van verdere vooruitgang in 3D-bewuste visiemodellen. Onze code is beschikbaar op https://github.com/qq456cvb/3DCorrEnhance.
English
Vision foundation models, particularly the ViT family, have revolutionized
image understanding by providing rich semantic features. However, despite their
success in 2D comprehension, their abilities on grasping 3D spatial
relationships are still unclear. In this work, we evaluate and enhance the 3D
awareness of ViT-based models. We begin by systematically assessing their
ability to learn 3D equivariant features, specifically examining the
consistency of semantic embeddings across different viewpoints. Our findings
indicate that improved 3D equivariance leads to better performance on various
downstream tasks, including pose estimation, tracking, and semantic transfer.
Building on this insight, we propose a simple yet effective finetuning strategy
based on 3D correspondences, which significantly enhances the 3D correspondence
understanding of existing vision models. Remarkably, even finetuning on a
single object for just one iteration results in substantial performance gains.
All code and resources will be made publicly available to support further
advancements in 3D-aware vision models. Our code is available at
https://github.com/qq456cvb/3DCorrEnhance.Summary
AI-Generated Summary