Adattamento dei modelli di base della visione per una segmentazione cloud robusta nelle immagini di telerilevamento.

Abstract

La segmentazione delle nuvole è una sfida critica nell'interpretazione delle immagini da telerilevamento, poiché la sua precisione influisce direttamente sull'efficacia dell'elaborazione e dell'analisi successiva dei dati. Recentemente, i modelli di base della visione (VFM) hanno dimostrato potenti capacità di generalizzazione in varie attività visive. In questo articolo presentiamo un approccio adattivo efficiente nei parametri, denominato Cloud-Adapter, progettato per migliorare la precisione e la robustezza della segmentazione delle nuvole. Il nostro metodo sfrutta un VFM preaddestrato su dati di dominio generale, che rimane congelato, eliminando la necessità di ulteriore addestramento. Cloud-Adapter incorpora un modulo leggero di percezione spaziale che inizialmente utilizza una rete neurale convoluzionale (ConvNet) per estrarre rappresentazioni spaziali dense. Queste caratteristiche multi-scala vengono quindi aggregate e servono come input contestuali a un modulo adattante, che modula i livelli del trasformatore congelati all'interno del VFM. I risultati sperimentali dimostrano che l'approccio Cloud-Adapter, utilizzando solo lo 0,6% dei parametri addestrabili del backbone congelato, ottiene notevoli miglioramenti delle prestazioni. Cloud-Adapter raggiunge costantemente prestazioni all'avanguardia (SOTA) su una vasta gamma di set di dati di segmentazione delle nuvole provenienti da diverse fonti satellitari, serie di sensori, livelli di elaborazione dei dati, scenari di copertura terrestre e granularità delle annotazioni. Abbiamo rilasciato il codice sorgente e i modelli preaddestrati su https://github.com/XavierJiezou/Cloud-Adapter per supportare ulteriori ricerche.

English

Cloud segmentation is a critical challenge in remote sensing image interpretation, as its accuracy directly impacts the effectiveness of subsequent data processing and analysis. Recently, vision foundation models (VFM) have demonstrated powerful generalization capabilities across various visual tasks. In this paper, we present a parameter-efficient adaptive approach, termed Cloud-Adapter, designed to enhance the accuracy and robustness of cloud segmentation. Our method leverages a VFM pretrained on general domain data, which remains frozen, eliminating the need for additional training. Cloud-Adapter incorporates a lightweight spatial perception module that initially utilizes a convolutional neural network (ConvNet) to extract dense spatial representations. These multi-scale features are then aggregated and serve as contextual inputs to an adapting module, which modulates the frozen transformer layers within the VFM. Experimental results demonstrate that the Cloud-Adapter approach, utilizing only 0.6% of the trainable parameters of the frozen backbone, achieves substantial performance gains. Cloud-Adapter consistently attains state-of-the-art (SOTA) performance across a wide variety of cloud segmentation datasets from multiple satellite sources, sensor series, data processing levels, land cover scenarios, and annotation granularities. We have released the source code and pretrained models at https://github.com/XavierJiezou/Cloud-Adapter to support further research.

Adattamento dei modelli di base della visione per una segmentazione cloud robusta nelle immagini di telerilevamento.

Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Abstract

Summary

Support