Adattamento dei modelli di base della visione per una segmentazione cloud robusta nelle immagini di telerilevamento.
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images
November 20, 2024
Autori: Xuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao
cs.AI
Abstract
La segmentazione delle nuvole è una sfida critica nell'interpretazione delle immagini da telerilevamento, poiché la sua precisione influisce direttamente sull'efficacia dell'elaborazione e dell'analisi successiva dei dati. Recentemente, i modelli di base della visione (VFM) hanno dimostrato potenti capacità di generalizzazione in varie attività visive. In questo articolo presentiamo un approccio adattivo efficiente nei parametri, denominato Cloud-Adapter, progettato per migliorare la precisione e la robustezza della segmentazione delle nuvole. Il nostro metodo sfrutta un VFM preaddestrato su dati di dominio generale, che rimane congelato, eliminando la necessità di ulteriore addestramento. Cloud-Adapter incorpora un modulo leggero di percezione spaziale che inizialmente utilizza una rete neurale convoluzionale (ConvNet) per estrarre rappresentazioni spaziali dense. Queste caratteristiche multi-scala vengono quindi aggregate e servono come input contestuali a un modulo adattante, che modula i livelli del trasformatore congelati all'interno del VFM. I risultati sperimentali dimostrano che l'approccio Cloud-Adapter, utilizzando solo lo 0,6% dei parametri addestrabili del backbone congelato, ottiene notevoli miglioramenti delle prestazioni. Cloud-Adapter raggiunge costantemente prestazioni all'avanguardia (SOTA) su una vasta gamma di set di dati di segmentazione delle nuvole provenienti da diverse fonti satellitari, serie di sensori, livelli di elaborazione dei dati, scenari di copertura terrestre e granularità delle annotazioni. Abbiamo rilasciato il codice sorgente e i modelli preaddestrati su https://github.com/XavierJiezou/Cloud-Adapter per supportare ulteriori ricerche.
English
Cloud segmentation is a critical challenge in remote sensing image
interpretation, as its accuracy directly impacts the effectiveness of
subsequent data processing and analysis. Recently, vision foundation models
(VFM) have demonstrated powerful generalization capabilities across various
visual tasks. In this paper, we present a parameter-efficient adaptive
approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness
of cloud segmentation. Our method leverages a VFM pretrained on general domain
data, which remains frozen, eliminating the need for additional training.
Cloud-Adapter incorporates a lightweight spatial perception module that
initially utilizes a convolutional neural network (ConvNet) to extract dense
spatial representations. These multi-scale features are then aggregated and
serve as contextual inputs to an adapting module, which modulates the frozen
transformer layers within the VFM. Experimental results demonstrate that the
Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the
frozen backbone, achieves substantial performance gains. Cloud-Adapter
consistently attains state-of-the-art (SOTA) performance across a wide variety
of cloud segmentation datasets from multiple satellite sources, sensor series,
data processing levels, land cover scenarios, and annotation granularities. We
have released the source code and pretrained models at
https://github.com/XavierJiezou/Cloud-Adapter to support further research.Summary
AI-Generated Summary