AerialMegaDepth: Aprendizaje de Reconstrucción Aérea-Terrestre y Síntesis de Vistas
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
April 17, 2025
Autores: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
cs.AI
Resumen
Exploramos la tarea de reconstrucción geométrica de imágenes capturadas desde una mezcla de vistas terrestres y aéreas. Los enfoques actuales basados en aprendizaje de última generación no logran manejar la variación extrema de puntos de vista entre pares de imágenes aéreas-terrestres. Nuestra hipótesis es que la falta de conjuntos de datos de alta calidad y co-registrados de imágenes aéreas-terrestres para el entrenamiento es una razón clave de este fracaso. Dichos datos son difíciles de recopilar precisamente porque es difícil reconstruirlos de manera escalable. Para superar este desafío, proponemos un marco escalable que combina representaciones pseudo-sintéticas a partir de mallas 3D de ciudades completas (por ejemplo, Google Earth) con imágenes reales de nivel terrestre obtenidas de manera colaborativa (por ejemplo, MegaDepth). Los datos pseudo-sintéticos simulan una amplia gama de puntos de vista aéreos, mientras que las imágenes reales colaborativas ayudan a mejorar la fidelidad visual para las imágenes de nivel terrestre donde las representaciones basadas en mallas carecen de suficiente detalle, cerrando efectivamente la brecha de dominio entre las imágenes reales y las representaciones pseudo-sintéticas. Utilizando este conjunto de datos híbrido, ajustamos varios algoritmos de última generación y logramos mejoras significativas en tareas aéreas-terrestres del mundo real sin entrenamiento previo (zero-shot). Por ejemplo, observamos que el modelo base DUSt3R localiza menos del 5% de los pares aéreos-terrestres dentro de un margen de error de 5 grados en la rotación de la cámara, mientras que el ajuste fino con nuestros datos aumenta la precisión a casi el 56%, abordando un punto crítico de fallo en el manejo de grandes cambios de punto de vista. Más allá de la estimación de la cámara y la reconstrucción de escenas, nuestro conjunto de datos también mejora el rendimiento en tareas posteriores como la síntesis de nuevas vistas en escenarios desafiantes de imágenes aéreas-terrestres, demostrando el valor práctico de nuestro enfoque en aplicaciones del mundo real.
English
We explore the task of geometric reconstruction of images captured from a
mixture of ground and aerial views. Current state-of-the-art learning-based
approaches fail to handle the extreme viewpoint variation between aerial-ground
image pairs. Our hypothesis is that the lack of high-quality, co-registered
aerial-ground datasets for training is a key reason for this failure. Such data
is difficult to assemble precisely because it is difficult to reconstruct in a
scalable way. To overcome this challenge, we propose a scalable framework
combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google
Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The
pseudo-synthetic data simulates a wide range of aerial viewpoints, while the
real, crowd-sourced images help improve visual fidelity for ground-level images
where mesh-based renderings lack sufficient detail, effectively bridging the
domain gap between real images and pseudo-synthetic renderings. Using this
hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve
significant improvements on real-world, zero-shot aerial-ground tasks. For
example, we observe that baseline DUSt3R localizes fewer than 5% of
aerial-ground pairs within 5 degrees of camera rotation error, while
fine-tuning with our data raises accuracy to nearly 56%, addressing a major
failure point in handling large viewpoint changes. Beyond camera estimation and
scene reconstruction, our dataset also improves performance on downstream tasks
like novel-view synthesis in challenging aerial-ground scenarios, demonstrating
the practical value of our approach in real-world applications.Summary
AI-Generated Summary