Correlazione delle prestazioni di rilevamento degli oggetti con la salienza visiva e la stima della profondità.
Correlation of Object Detection Performance with Visual Saliency and Depth Estimation
November 5, 2024
Autori: Matthias Bartolo, Dylan Seychell
cs.AI
Abstract
Man mano che le tecniche di rilevamento degli oggetti continuano a evolversi, comprendere le loro relazioni con compiti visivi complementari diventa cruciale per ottimizzare le architetture dei modelli e le risorse computazionali. Questo articolo indaga sulle correlazioni tra l'accuratezza del rilevamento degli oggetti e due compiti visivi fondamentali: la previsione della profondità e la previsione della salienza visiva. Attraverso esperimenti esaustivi utilizzando modelli all'avanguardia (DeepGaze IIE, Depth Anything, DPT-Large e il modello di Itti) sui dataset COCO e Pascal VOC, scopriamo che la salienza visiva mostra correlazioni costantemente più forti con l'accuratezza del rilevamento degli oggetti (mArho fino a 0,459 su Pascal VOC) rispetto alla previsione della profondità (mArho fino a 0,283). La nostra analisi rivela variazioni significative in queste correlazioni tra le categorie di oggetti, con gli oggetti più grandi che mostrano valori di correlazione fino a tre volte più alti rispetto agli oggetti più piccoli. Queste scoperte suggeriscono che incorporare le caratteristiche della salienza visiva nelle architetture di rilevamento degli oggetti potrebbe essere più vantaggioso rispetto alle informazioni sulla profondità, in particolare per specifiche categorie di oggetti. Le variazioni osservate specifiche per categoria forniscono anche spunti per un'ingegneria delle caratteristiche mirata e miglioramenti nella progettazione dei dataset, potenzialmente portando a sistemi di rilevamento degli oggetti più efficienti e precisi.
English
As object detection techniques continue to evolve, understanding their
relationships with complementary visual tasks becomes crucial for optimising
model architectures and computational resources. This paper investigates the
correlations between object detection accuracy and two fundamental visual
tasks: depth prediction and visual saliency prediction. Through comprehensive
experiments using state-of-the-art models (DeepGaze IIE, Depth Anything,
DPT-Large, and Itti's model) on COCO and Pascal VOC datasets, we find that
visual saliency shows consistently stronger correlations with object detection
accuracy (mArho up to 0.459 on Pascal VOC) compared to depth prediction
(mArho up to 0.283). Our analysis reveals significant variations in these
correlations across object categories, with larger objects showing correlation
values up to three times higher than smaller objects. These findings suggest
incorporating visual saliency features into object detection architectures
could be more beneficial than depth information, particularly for specific
object categories. The observed category-specific variations also provide
insights for targeted feature engineering and dataset design improvements,
potentially leading to more efficient and accurate object detection systems.Summary
AI-Generated Summary