Co-SemDepth: Stima Rapida Congiunta di Segmentazione Semantica e Profondità su Immagini Aeree
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images
March 23, 2025
Autori: Yara AlaaEldin, Francesca Odone
cs.AI
Abstract
Comprendere le proprietà geometriche e semantiche della scena è cruciale
per la navigazione autonoma e particolarmente impegnativo nel caso della
navigazione di veicoli aerei senza pilota (UAV). Tali informazioni possono
essere ottenute stimando mappe di profondità e di segmentazione semantica
dell'ambiente circostante e, per il loro utilizzo pratico nella navigazione
autonoma, la procedura deve essere eseguita il più vicino possibile al tempo
reale. In questo articolo, sfruttiamo telecamere monoculari su robot aerei per
prevedere mappe di profondità e semantiche in ambienti non strutturati a bassa
quota. Proponiamo un'architettura di deep learning congiunta in grado di
eseguire le due attività in modo accurato e rapido, e ne validiamo l'efficacia
sui dataset di riferimento MidAir e Aeroscapes. La nostra architettura congiunta
si dimostra competitiva o superiore rispetto ad altri metodi con architetture
singole o congiunte, eseguendo il proprio compito rapidamente con una previsione
di 20,2 FPS su una singola GPU NVIDIA Quadro P5000 e con un basso consumo di
memoria. Tutti i codici per l'addestramento e la previsione sono disponibili al
seguente link: https://github.com/Malga-Vision/Co-SemDepth
English
Understanding the geometric and semantic properties of the scene is crucial
in autonomous navigation and particularly challenging in the case of Unmanned
Aerial Vehicle (UAV) navigation. Such information may be by obtained by
estimating depth and semantic segmentation maps of the surrounding environment
and for their practical use in autonomous navigation, the procedure must be
performed as close to real-time as possible. In this paper, we leverage
monocular cameras on aerial robots to predict depth and semantic maps in
low-altitude unstructured environments. We propose a joint deep-learning
architecture that can perform the two tasks accurately and rapidly, and
validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our
joint-architecture proves to be competitive or superior to the other single and
joint architecture methods while performing its task fast predicting 20.2 FPS
on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All
codes for training and prediction can be found on this link:
https://github.com/Malga-Vision/Co-SemDepthSummary
AI-Generated Summary