Multiview-Äquivarianz verbessert das Verständnis der 3D-Korrespondenz mit minimalem Feinabstimmungsbedarf von Merkmalen.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning
November 29, 2024
Autoren: Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
cs.AI
Zusammenfassung
Die Grundlagenmodelle für die visuelle Wahrnehmung, insbesondere die ViT-Familie, haben die Bildverarbeitung revolutioniert, indem sie reichhaltige semantische Merkmale bereitstellen. Trotz ihres Erfolgs bei der zweidimensionalen Verarbeitung sind ihre Fähigkeiten zur Erfassung räumlicher 3D-Beziehungen noch unklar. In dieser Arbeit bewerten und verbessern wir das 3D-Bewusstsein von ViT-basierten Modellen. Wir beginnen mit der systematischen Bewertung ihrer Fähigkeit, 3D-äquivariante Merkmale zu erlernen, wobei wir insbesondere die Konsistenz semantischer Einbettungen aus verschiedenen Blickwinkeln untersuchen. Unsere Ergebnisse deuten darauf hin, dass eine verbesserte 3D-Äquivarianz zu besseren Leistungen bei verschiedenen nachgelagerten Aufgaben führt, einschließlich Posenabschätzung, Verfolgung und semantischer Übertragung. Aufbauend auf dieser Erkenntnis schlagen wir eine einfache, aber effektive Feinabstimmungsstrategie auf der Grundlage von 3D-Korrespondenzen vor, die das Verständnis für 3D-Korrespondenzen bestehender Visionmodelle signifikant verbessert. Bemerkenswerterweise führt selbst eine Feinabstimmung an einem einzelnen Objekt für nur eine Iteration zu erheblichen Leistungssteigerungen. Der gesamte Code und die Ressourcen werden öffentlich zugänglich gemacht, um weitere Fortschritte bei 3D-bewussten Visionmodellen zu unterstützen. Unser Code ist verfügbar unter https://github.com/qq456cvb/3DCorrEnhance.
English
Vision foundation models, particularly the ViT family, have revolutionized
image understanding by providing rich semantic features. However, despite their
success in 2D comprehension, their abilities on grasping 3D spatial
relationships are still unclear. In this work, we evaluate and enhance the 3D
awareness of ViT-based models. We begin by systematically assessing their
ability to learn 3D equivariant features, specifically examining the
consistency of semantic embeddings across different viewpoints. Our findings
indicate that improved 3D equivariance leads to better performance on various
downstream tasks, including pose estimation, tracking, and semantic transfer.
Building on this insight, we propose a simple yet effective finetuning strategy
based on 3D correspondences, which significantly enhances the 3D correspondence
understanding of existing vision models. Remarkably, even finetuning on a
single object for just one iteration results in substantial performance gains.
All code and resources will be made publicly available to support further
advancements in 3D-aware vision models. Our code is available at
https://github.com/qq456cvb/3DCorrEnhance.Summary
AI-Generated Summary