Multiview equivariantie verbetert het begrip van driedimensionale overeenkomsten met minimale fijnafstemming van kenmerken.

Samenvatting

Visie foundation modellen, met name de ViT-familie, hebben de beeldbegrip gerevolutioneerd door rijke semantische kenmerken te bieden. Echter, ondanks hun succes in 2D begrip, zijn hun vermogens om 3D ruimtelijke relaties te begrijpen nog steeds onduidelijk. In dit werk evalueren en verbeteren we het 3D bewustzijn van op ViT gebaseerde modellen. We beginnen met systematisch hun vermogen te beoordelen om 3D equivariante kenmerken te leren, waarbij we specifiek de consistentie van semantische insluitingen over verschillende gezichtspunten onderzoeken. Onze bevindingen geven aan dat verbeterde 3D equivariantie leidt tot betere prestaties op verschillende downstream taken, waaronder houdingschatting, tracking en semantische overdracht. Voortbouwend op deze inzichten stellen we een eenvoudige maar effectieve fine-tuning strategie voor op basis van 3D overeenkomsten, die aanzienlijk het begrip van 3D overeenkomsten van bestaande visiemodellen verbetert. Opmerkelijk is dat zelfs fine-tuning op een enkel object voor slechts één iteratie resulteert in aanzienlijke prestatieverbeteringen. Alle code en bronnen zullen openbaar beschikbaar worden gesteld ter ondersteuning van verdere vooruitgang in 3D-bewuste visiemodellen. Onze code is beschikbaar op https://github.com/qq456cvb/3DCorrEnhance.

English

Vision foundation models, particularly the ViT family, have revolutionized image understanding by providing rich semantic features. However, despite their success in 2D comprehension, their abilities on grasping 3D spatial relationships are still unclear. In this work, we evaluate and enhance the 3D awareness of ViT-based models. We begin by systematically assessing their ability to learn 3D equivariant features, specifically examining the consistency of semantic embeddings across different viewpoints. Our findings indicate that improved 3D equivariance leads to better performance on various downstream tasks, including pose estimation, tracking, and semantic transfer. Building on this insight, we propose a simple yet effective finetuning strategy based on 3D correspondences, which significantly enhances the 3D correspondence understanding of existing vision models. Remarkably, even finetuning on a single object for just one iteration results in substantial performance gains. All code and resources will be made publicly available to support further advancements in 3D-aware vision models. Our code is available at https://github.com/qq456cvb/3DCorrEnhance.

Multiview equivariantie verbetert het begrip van driedimensionale overeenkomsten met minimale fijnafstemming van kenmerken.

Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Samenvatting

Summary

Support