시각 도발성 및 깊이 추정과 물체 감지 성능의 상관 관계
Correlation of Object Detection Performance with Visual Saliency and Depth Estimation
November 5, 2024
저자: Matthias Bartolo, Dylan Seychell
cs.AI
초록
객체 탐지 기술이 계속 발전함에 따라, 보완적인 시각 작업과의 관계를 이해하는 것이 모델 아키텍처와 계산 자원을 최적화하는 데 중요해집니다. 본 논문은 객체 탐지 정확도와 두 가지 기본 시각 작업인 깊이 예측과 시각적 눈부심 예측 사이의 상관 관계를 조사합니다. COCO 및 Pascal VOC 데이터셋에서 최첨단 모델(DeepGaze IIE, Depth Anything, DPT-Large, 및 Itti의 모델)을 사용한 포괄적인 실험을 통해, 시각적 눈부심이 깊이 예측보다 객체 탐지 정확도와 일관되게 강한 상관 관계를 보여준다는 것을 발견했습니다(Pascal VOC에서 mArho 최대 0.459). 우리의 분석은 이러한 상관 관계가 객체 범주에 따라 상당한 변동을 보여주며, 큰 객체가 작은 객체보다 상관 값이 최대 3배 높은 것을 보여줍니다. 이러한 발견은 특정 객체 범주에 대해 시각적 눈부심 특징을 객체 탐지 아키텍처에 통합하는 것이 깊이 정보보다 더 유익할 수 있다는 것을 시사합니다. 관찰된 범주별 변동은 특정 기능 엔지니어링 및 데이터셋 설계 개선을 위한 통찰을 제공하며, 이는 더 효율적이고 정확한 객체 탐지 시스템으로 이어질 수 있습니다.
English
As object detection techniques continue to evolve, understanding their
relationships with complementary visual tasks becomes crucial for optimising
model architectures and computational resources. This paper investigates the
correlations between object detection accuracy and two fundamental visual
tasks: depth prediction and visual saliency prediction. Through comprehensive
experiments using state-of-the-art models (DeepGaze IIE, Depth Anything,
DPT-Large, and Itti's model) on COCO and Pascal VOC datasets, we find that
visual saliency shows consistently stronger correlations with object detection
accuracy (mArho up to 0.459 on Pascal VOC) compared to depth prediction
(mArho up to 0.283). Our analysis reveals significant variations in these
correlations across object categories, with larger objects showing correlation
values up to three times higher than smaller objects. These findings suggest
incorporating visual saliency features into object detection architectures
could be more beneficial than depth information, particularly for specific
object categories. The observed category-specific variations also provide
insights for targeted feature engineering and dataset design improvements,
potentially leading to more efficient and accurate object detection systems.Summary
AI-Generated Summary