Co-SemDepth: Schnelle gemeinsame semantische Segmentierung und Tiefenschätzung auf Luftbildern
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images
March 23, 2025
Autoren: Yara AlaaEldin, Francesca Odone
cs.AI
Zusammenfassung
Das Verständnis der geometrischen und semantischen Eigenschaften einer Szene ist entscheidend für die autonome Navigation und stellt insbesondere im Fall der Navigation von unbemannten Luftfahrzeugen (UAV) eine große Herausforderung dar. Solche Informationen können durch die Schätzung von Tiefen- und semantischen Segmentierungskarten der Umgebung gewonnen werden. Für deren praktische Anwendung in der autonomen Navigation muss dieser Prozess so nahe wie möglich in Echtzeit durchgeführt werden. In diesem Beitrag nutzen wir monokulare Kameras auf Flugrobotern, um Tiefen- und semantische Karten in unstrukturierten Umgebungen in niedriger Höhe vorherzusagen. Wir schlagen eine gemeinsame Deep-Learning-Architektur vor, die beide Aufgaben präzise und schnell ausführen kann, und validieren ihre Wirksamkeit anhand der Benchmark-Datensätze MidAir und Aeroscapes. Unsere gemeinsame Architektur erweist sich als wettbewerbsfähig oder überlegen gegenüber anderen Einzel- und Kombinationsarchitekturmethoden, während sie ihre Aufgabe schnell ausführt und dabei 20,2 FPS auf einer einzelnen NVIDIA Quadro P5000 GPU vorhersagt. Zudem hat sie einen geringen Speicherbedarf. Alle Codes für das Training und die Vorhersage sind unter folgendem Link verfügbar: https://github.com/Malga-Vision/Co-SemDepth
English
Understanding the geometric and semantic properties of the scene is crucial
in autonomous navigation and particularly challenging in the case of Unmanned
Aerial Vehicle (UAV) navigation. Such information may be by obtained by
estimating depth and semantic segmentation maps of the surrounding environment
and for their practical use in autonomous navigation, the procedure must be
performed as close to real-time as possible. In this paper, we leverage
monocular cameras on aerial robots to predict depth and semantic maps in
low-altitude unstructured environments. We propose a joint deep-learning
architecture that can perform the two tasks accurately and rapidly, and
validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our
joint-architecture proves to be competitive or superior to the other single and
joint architecture methods while performing its task fast predicting 20.2 FPS
on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All
codes for training and prediction can be found on this link:
https://github.com/Malga-Vision/Co-SemDepthSummary
AI-Generated Summary