ChatPaper.aiChatPaper

Co-SemDepth: Stima Rapida Congiunta di Segmentazione Semantica e Profondità su Immagini Aeree

Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images

March 23, 2025
Autori: Yara AlaaEldin, Francesca Odone
cs.AI

Abstract

Comprendere le proprietà geometriche e semantiche della scena è cruciale per la navigazione autonoma e particolarmente impegnativo nel caso della navigazione di veicoli aerei senza pilota (UAV). Tali informazioni possono essere ottenute stimando mappe di profondità e di segmentazione semantica dell'ambiente circostante e, per il loro utilizzo pratico nella navigazione autonoma, la procedura deve essere eseguita il più vicino possibile al tempo reale. In questo articolo, sfruttiamo telecamere monoculari su robot aerei per prevedere mappe di profondità e semantiche in ambienti non strutturati a bassa quota. Proponiamo un'architettura di deep learning congiunta in grado di eseguire le due attività in modo accurato e rapido, e ne validiamo l'efficacia sui dataset di riferimento MidAir e Aeroscapes. La nostra architettura congiunta si dimostra competitiva o superiore rispetto ad altri metodi con architetture singole o congiunte, eseguendo il proprio compito rapidamente con una previsione di 20,2 FPS su una singola GPU NVIDIA Quadro P5000 e con un basso consumo di memoria. Tutti i codici per l'addestramento e la previsione sono disponibili al seguente link: https://github.com/Malga-Vision/Co-SemDepth
English
Understanding the geometric and semantic properties of the scene is crucial in autonomous navigation and particularly challenging in the case of Unmanned Aerial Vehicle (UAV) navigation. Such information may be by obtained by estimating depth and semantic segmentation maps of the surrounding environment and for their practical use in autonomous navigation, the procedure must be performed as close to real-time as possible. In this paper, we leverage monocular cameras on aerial robots to predict depth and semantic maps in low-altitude unstructured environments. We propose a joint deep-learning architecture that can perform the two tasks accurately and rapidly, and validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our joint-architecture proves to be competitive or superior to the other single and joint architecture methods while performing its task fast predicting 20.2 FPS on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All codes for training and prediction can be found on this link: https://github.com/Malga-Vision/Co-SemDepth

Summary

AI-Generated Summary

PDF02March 26, 2025