Corrélation de la performance de la détection d'objets avec la saillance visuelle et l'estimation de la profondeur

Correlation of Object Detection Performance with Visual Saliency and Depth Estimation

November 5, 2024
Auteurs: Matthias Bartolo, Dylan Seychell
cs.AI

Résumé

À mesure que les techniques de détection d'objets continuent d'évoluer, comprendre leurs relations avec des tâches visuelles complémentaires devient crucial pour optimiser les architectures de modèles et les ressources computationnelles. Ce document examine les corrélations entre la précision de la détection d'objets et deux tâches visuelles fondamentales : la prédiction de profondeur et la prédiction de saillance visuelle. À travers des expériences approfondies utilisant des modèles de pointe (DeepGaze IIE, Depth Anything, DPT-Large et le modèle d'Itti) sur les ensembles de données COCO et Pascal VOC, nous constatons que la saillance visuelle montre des corrélations plus fortes de manière constante avec la précision de la détection d'objets (mArho jusqu'à 0,459 sur Pascal VOC) par rapport à la prédiction de profondeur (mArho jusqu'à 0,283). Notre analyse révèle des variations significatives dans ces corrélations selon les catégories d'objets, les objets plus grands montrant des valeurs de corrélation jusqu'à trois fois plus élevées que les objets plus petits. Ces résultats suggèrent que l'incorporation des caractéristiques de saillance visuelle dans les architectures de détection d'objets pourrait être plus bénéfique que les informations de profondeur, en particulier pour des catégories d'objets spécifiques. Les variations spécifiques aux catégories observées fournissent également des informations pour l'ingénierie de fonctionnalités ciblées et l'amélioration de la conception des ensembles de données, conduisant potentiellement à des systèmes de détection d'objets plus efficaces et précis.
English
As object detection techniques continue to evolve, understanding their relationships with complementary visual tasks becomes crucial for optimising model architectures and computational resources. This paper investigates the correlations between object detection accuracy and two fundamental visual tasks: depth prediction and visual saliency prediction. Through comprehensive experiments using state-of-the-art models (DeepGaze IIE, Depth Anything, DPT-Large, and Itti's model) on COCO and Pascal VOC datasets, we find that visual saliency shows consistently stronger correlations with object detection accuracy (mArho up to 0.459 on Pascal VOC) compared to depth prediction (mArho up to 0.283). Our analysis reveals significant variations in these correlations across object categories, with larger objects showing correlation values up to three times higher than smaller objects. These findings suggest incorporating visual saliency features into object detection architectures could be more beneficial than depth information, particularly for specific object categories. The observed category-specific variations also provide insights for targeted feature engineering and dataset design improvements, potentially leading to more efficient and accurate object detection systems.

Summary

AI-Generated Summary

PDF31November 13, 2024