Korrelation der Objekterkennungsleistung mit visueller Auffälligkeit und Tiefenschätzung

Correlation of Object Detection Performance with Visual Saliency and Depth Estimation

November 5, 2024
Autoren: Matthias Bartolo, Dylan Seychell
cs.AI

Zusammenfassung

Mit der kontinuierlichen Weiterentwicklung von Objekterkennungstechniken wird das Verständnis ihrer Beziehungen zu ergänzenden visuellen Aufgaben entscheidend für die Optimierung von Modellarchitekturen und Rechenressourcen. Diese Arbeit untersucht die Korrelationen zwischen der Genauigkeit der Objekterkennung und zwei grundlegenden visuellen Aufgaben: Tiefenschätzung und visuelle Auffälligkeitsschätzung. Durch umfassende Experimente mit modernsten Modellen (DeepGaze IIE, Depth Anything, DPT-Large und Itti's Modell) auf COCO- und Pascal VOC-Datensätzen stellen wir fest, dass die visuelle Auffälligkeit im Vergleich zur Tiefenschätzung (mArho bis zu 0,283) konsistent stärkere Korrelationen mit der Genauigkeit der Objekterkennung aufweist (mArho bis zu 0,459 auf Pascal VOC). Unsere Analyse zeigt signifikante Variationen in diesen Korrelationen zwischen Objektkategorien, wobei größere Objekte Korrelationswerte aufweisen, die bis zu drei Mal höher sind als bei kleineren Objekten. Diese Ergebnisse legen nahe, dass die Integration von visuellen Auffälligkeitsmerkmalen in Objekterkennungsarchitekturen möglicherweise vorteilhafter ist als Tiefeninformationen, insbesondere für bestimmte Objektkategorien. Die beobachteten kategoriespezifischen Variationen bieten auch Einblicke für gezielte Merkmalsentwicklung und Verbesserungen im Datensatzdesign, die potenziell zu effizienteren und genaueren Objekterkennungssystemen führen können.
English
As object detection techniques continue to evolve, understanding their relationships with complementary visual tasks becomes crucial for optimising model architectures and computational resources. This paper investigates the correlations between object detection accuracy and two fundamental visual tasks: depth prediction and visual saliency prediction. Through comprehensive experiments using state-of-the-art models (DeepGaze IIE, Depth Anything, DPT-Large, and Itti's model) on COCO and Pascal VOC datasets, we find that visual saliency shows consistently stronger correlations with object detection accuracy (mArho up to 0.459 on Pascal VOC) compared to depth prediction (mArho up to 0.283). Our analysis reveals significant variations in these correlations across object categories, with larger objects showing correlation values up to three times higher than smaller objects. These findings suggest incorporating visual saliency features into object detection architectures could be more beneficial than depth information, particularly for specific object categories. The observed category-specific variations also provide insights for targeted feature engineering and dataset design improvements, potentially leading to more efficient and accurate object detection systems.

Summary

AI-Generated Summary

PDF31November 13, 2024