AerialMegaDepth: Leren van Lucht-Grond Reconstructie en Beeldweergave Synthese
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
April 17, 2025
Auteurs: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
cs.AI
Samenvatting
We onderzoeken de taak van geometrische reconstructie van afbeeldingen die zijn vastgelegd vanuit een mix van grond- en luchtbeelden. Huidige state-of-the-art, op leren gebaseerde benaderingen slagen er niet in om de extreme variatie in gezichtspunten tussen lucht-grond beeldparen te hanteren. Onze hypothese is dat het ontbreken van hoogwaardige, geco-registreerde lucht-grond datasets voor training een belangrijke reden is voor dit falen. Dergelijke data is moeilijk samen te stellen, juist omdat het moeilijk is om op een schaalbare manier te reconstrueren. Om deze uitdaging te overwinnen, stellen we een schaalbare framework voor dat pseudo-synthetische weergaven van 3D stadswijdemodellen (bijv. Google Earth) combineert met echte, op grondniveau verzamelde crowd-sourced afbeeldingen (bijv. MegaDepth). De pseudo-synthetische data simuleert een breed scala aan luchtgezichten, terwijl de echte, crowd-sourced afbeeldingen helpen om de visuele kwaliteit te verbeteren voor grondniveau afbeeldingen waar mesh-gebaseerde weergaven onvoldoende detail hebben, waardoor effectief de domeinkloof tussen echte afbeeldingen en pseudo-synthetische weergaven wordt overbrugd. Met behulp van deze hybride dataset fine-tunen we verschillende state-of-the-art algoritmen en behalen we significante verbeteringen op real-world, zero-shot lucht-grond taken. Bijvoorbeeld, we observeren dat de baseline DUSt3R minder dan 5% van de lucht-grond paren lokaliseert binnen 5 graden camerarotatiefout, terwijl fine-tuning met onze data de nauwkeurigheid verhoogt tot bijna 56%, wat een belangrijk falen aanpakt bij het omgaan met grote gezichtspuntveranderingen. Naast cameraschatting en scènereconstructie, verbetert onze dataset ook de prestaties op downstream taken zoals nieuwe-weergave synthese in uitdagende lucht-grond scenario's, wat de praktische waarde van onze aanpak in real-world toepassingen aantoont.
English
We explore the task of geometric reconstruction of images captured from a
mixture of ground and aerial views. Current state-of-the-art learning-based
approaches fail to handle the extreme viewpoint variation between aerial-ground
image pairs. Our hypothesis is that the lack of high-quality, co-registered
aerial-ground datasets for training is a key reason for this failure. Such data
is difficult to assemble precisely because it is difficult to reconstruct in a
scalable way. To overcome this challenge, we propose a scalable framework
combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google
Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The
pseudo-synthetic data simulates a wide range of aerial viewpoints, while the
real, crowd-sourced images help improve visual fidelity for ground-level images
where mesh-based renderings lack sufficient detail, effectively bridging the
domain gap between real images and pseudo-synthetic renderings. Using this
hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve
significant improvements on real-world, zero-shot aerial-ground tasks. For
example, we observe that baseline DUSt3R localizes fewer than 5% of
aerial-ground pairs within 5 degrees of camera rotation error, while
fine-tuning with our data raises accuracy to nearly 56%, addressing a major
failure point in handling large viewpoint changes. Beyond camera estimation and
scene reconstruction, our dataset also improves performance on downstream tasks
like novel-view synthesis in challenging aerial-ground scenarios, demonstrating
the practical value of our approach in real-world applications.Summary
AI-Generated Summary