DynamicVis: Ein effizientes und universelles visuelles Basismodell für das Verständnis von Fernerkundungsbildern
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
March 20, 2025
Autoren: Keyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi
cs.AI
Zusammenfassung
Die Weiterentwicklung der Fernerkundungstechnologie hat die räumliche Auflösung von Satellitenbildern verbessert, was detailliertere visuelle Darstellungen für vielfältige Interpretationen ermöglicht. Bestehende Methoden zeigen jedoch begrenzte Generalisierungsfähigkeiten über verschiedene Anwendungen hinweg. Während einige moderne Basismodelle Potenzial aufweisen, werden sie durch unzureichende Anpassungsfähigkeit über verschiedene Aufgaben hinweg behindert und verarbeiten hauptsächlich niedrigauflösende Bilder mit begrenzten Größen, wodurch sie hochauflösende Daten nicht vollständig nutzen oder umfassende Semantik großer Szenen nicht voll ausschöpfen können. Entscheidend ist, dass sich Fernerkundungsbilder grundlegend von natürlichen Bildern unterscheiden, da wichtige Vordergrundziele (z. B. maritime Objekte, künstliche Strukturen) oft nur minimale räumliche Anteile (~1%) einnehmen und eine spärliche Verteilung aufweisen. Die effiziente Modellierung von aufgabenübergreifend generalisierbarem Wissen aus langen 2D-Tokens (~100.000) stellt eine erhebliche Herausforderung dar, bleibt jedoch entscheidend für das Verständnis von Fernerkundungsbildern. Motiviert durch die selektiven Aufmerksamkeitsmechanismen des menschlichen visuellen Systems, schlagen wir DynamicVis vor, ein dynamisches visuelles Wahrnehmungs-Basismodell für Fernerkundungsbilder. Das Framework integriert ein neuartiges dynamisches Regionen-Wahrnehmungs-Backbone basierend auf dem selektiven Zustandsraummodell, das strategisch die Extraktion lokaler Details mit der Integration globaler Kontexte ausbalanciert und so eine recheneffiziente Kodierung großer Datenmengen bei gleichzeitiger Aufrechterhaltung der architektonischen Skalierbarkeit ermöglicht. Um den aufgabenübergreifenden Wissenstransfer zu verbessern, führen wir ein Multi-Instance-Learning-Paradigma ein, das Meta-Embedding-Repräsentationen nutzt und auf Millionen von Regionen-Annotationen trainiert wird. Bewertungen über neun nachgelagerte Aufgaben hinweg demonstrieren die Vielseitigkeit des Modells. DynamicVis erreicht eine mehrstufige Merkmalsmodellierung mit außergewöhnlicher Effizienz, verarbeitet (2048x2048) Pixel mit einer Latenz von 97 ms (6 % von ViT) und 833 MB GPU-Speicher (3 % von ViT).
English
The advancement of remote sensing technology has improved the spatial
resolution of satellite imagery, facilitating more detailed visual
representations for diverse interpretations. However, existing methods exhibit
limited generalization capabilities across varied applications. While some
contemporary foundation models demonstrate potential, they are hindered by
insufficient cross-task adaptability and primarily process low-resolution
imagery of restricted sizes, thus failing to fully exploit high-resolution data
or leverage comprehensive large-scene semantics. Crucially, remote sensing
imagery differs fundamentally from natural images, as key foreground targets
(eg., maritime objects, artificial structures) often occupy minimal spatial
proportions (~1%) and exhibit sparse distributions. Efficiently modeling
cross-task generalizable knowledge from lengthy 2D tokens (~100,000) poses a
significant challenge yet remains critical for remote sensing image
understanding. Motivated by the selective attention mechanisms inherent to the
human visual system, we propose DynamicVis, a dynamic visual perception
foundation model for remote sensing imagery. The framework integrates a novel
dynamic region perception backbone based on the selective state space model,
which strategically balances localized detail extraction with global contextual
integration, enabling computationally efficient encoding of large-scale data
while maintaining architectural scalability. To enhance cross-task knowledge
transferring, we introduce a multi-instance learning paradigm utilizing
meta-embedding representations, trained on million-scale region-level
annotations. Evaluations across nine downstream tasks demonstrate the model's
versatility. DynamicVis achieves multi-level feature modeling with exceptional
efficiency, processing (2048x2048) pixels with 97 ms latency (6% of ViT's) and
833 MB GPU memory (3% of ViT's).Summary
AI-Generated Summary