Corrélation de la performance de la détection d'objets avec la saillance visuelle et l'estimation de la profondeur
Correlation of Object Detection Performance with Visual Saliency and Depth Estimation
November 5, 2024
Auteurs: Matthias Bartolo, Dylan Seychell
cs.AI
Résumé
À mesure que les techniques de détection d'objets continuent d'évoluer, comprendre leurs relations avec des tâches visuelles complémentaires devient crucial pour optimiser les architectures de modèles et les ressources computationnelles. Ce document examine les corrélations entre la précision de la détection d'objets et deux tâches visuelles fondamentales : la prédiction de profondeur et la prédiction de saillance visuelle. À travers des expériences approfondies utilisant des modèles de pointe (DeepGaze IIE, Depth Anything, DPT-Large et le modèle d'Itti) sur les ensembles de données COCO et Pascal VOC, nous constatons que la saillance visuelle montre des corrélations plus fortes de manière constante avec la précision de la détection d'objets (mArho jusqu'à 0,459 sur Pascal VOC) par rapport à la prédiction de profondeur (mArho jusqu'à 0,283). Notre analyse révèle des variations significatives dans ces corrélations selon les catégories d'objets, les objets plus grands montrant des valeurs de corrélation jusqu'à trois fois plus élevées que les objets plus petits. Ces résultats suggèrent que l'incorporation des caractéristiques de saillance visuelle dans les architectures de détection d'objets pourrait être plus bénéfique que les informations de profondeur, en particulier pour des catégories d'objets spécifiques. Les variations spécifiques aux catégories observées fournissent également des informations pour l'ingénierie de fonctionnalités ciblées et l'amélioration de la conception des ensembles de données, conduisant potentiellement à des systèmes de détection d'objets plus efficaces et précis.
English
As object detection techniques continue to evolve, understanding their
relationships with complementary visual tasks becomes crucial for optimising
model architectures and computational resources. This paper investigates the
correlations between object detection accuracy and two fundamental visual
tasks: depth prediction and visual saliency prediction. Through comprehensive
experiments using state-of-the-art models (DeepGaze IIE, Depth Anything,
DPT-Large, and Itti's model) on COCO and Pascal VOC datasets, we find that
visual saliency shows consistently stronger correlations with object detection
accuracy (mArho up to 0.459 on Pascal VOC) compared to depth prediction
(mArho up to 0.283). Our analysis reveals significant variations in these
correlations across object categories, with larger objects showing correlation
values up to three times higher than smaller objects. These findings suggest
incorporating visual saliency features into object detection architectures
could be more beneficial than depth information, particularly for specific
object categories. The observed category-specific variations also provide
insights for targeted feature engineering and dataset design improvements,
potentially leading to more efficient and accurate object detection systems.Summary
AI-Generated Summary