
다중뷰 동질성은 최소한의 특징 미세조정으로 3D 대응 이해를 향상시킵니다.

Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

November 29, 2024
저자: Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas


비전 기반 모델, 특히 ViT 패밀리는 풍부한 의미적 특징을 제공하여 이미지 이해를 혁신적으로 바꿨다. 그러나 2D 이해에서의 성공에도 불구하고, 이러한 모델들이 3D 공간 관계를 파악하는 능력은 여전히 명확하지 않다. 본 연구에서는 ViT 기반 모델의 3D 인식을 평가하고 향상시킨다. 먼저, 이러한 모델들이 3D 동질 특징을 학습하는 능력을 체계적으로 평가하며, 특히 다양한 시각에서 의미 임베딩의 일관성을 조사한다. 우리의 연구 결과는 개선된 3D 동질성이 자세 추정, 추적 및 의미 전이를 포함한 다양한 하향 작업에서 더 나은 성능을 이끌어낸다는 것을 보여준다. 이 통찰력을 기반으로, 우리는 3D 대응을 획기적으로 향상시키는 간단하면서 효과적인 3D 대응 기반의 세밀 조정 전략을 제안한다. 놀랍게도, 하나의 객체에 대해 단 한 번의 반복적인 세밀 조정조차도 상당한 성능 향상을 가져온다. 모든 코드와 자원은 3D 인식 비전 모델의 추가 발전을 지원하기 위해 공개적으로 제공될 것이다. 우리의 코드는에서 이용 가능하다.
Vision foundation models, particularly the ViT family, have revolutionized image understanding by providing rich semantic features. However, despite their success in 2D comprehension, their abilities on grasping 3D spatial relationships are still unclear. In this work, we evaluate and enhance the 3D awareness of ViT-based models. We begin by systematically assessing their ability to learn 3D equivariant features, specifically examining the consistency of semantic embeddings across different viewpoints. Our findings indicate that improved 3D equivariance leads to better performance on various downstream tasks, including pose estimation, tracking, and semantic transfer. Building on this insight, we propose a simple yet effective finetuning strategy based on 3D correspondences, which significantly enhances the 3D correspondence understanding of existing vision models. Remarkably, even finetuning on a single object for just one iteration results in substantial performance gains. All code and resources will be made publicly available to support further advancements in 3D-aware vision models. Our code is available at


AI-Generated Summary

PDF52January 27, 2025