Wenn großes Vision-Sprach-Modell auf großes Fernerkundungsbild trifft: Grob-zu-fein textgesteuerte Token-Ausdünnung
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
March 10, 2025
Autoren: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
cs.AI
Zusammenfassung
Effizientes Verständnis von Vision und Sprache für große Fernerkundungsbilder (RSIs) ist bedeutsam, aber herausfordernd. Aktuelle Große Vision-Sprach-Modelle (LVLMs) verwenden typischerweise begrenzte vordefinierte Raster zur Bildverarbeitung, was zu Informationsverlusten bei der Handhabung von Gigapixel-RSIs führt. Umgekehrt erhöht die Verwendung unbegrenzter Raster die Rechenkosten erheblich. Um Bilddetails zu bewahren und gleichzeitig die Rechenkomplexität zu reduzieren, schlagen wir eine textgeführte Token-Reduktionsmethode mit Integration einer Dynamischen Bildpyramide (DIP) vor. Unsere Methode führt ein: (i) ein Region Focus Module (RFM), das textbewusste Regionenlokalisierungsfähigkeiten nutzt, um kritische Vision-Tokens zu identifizieren, und (ii) eine grob-zu-feine Bildkachelauswahl und Vision-Token-Reduktionsstrategie basierend auf DIP, die durch die Ausgaben des RFM gesteuert wird und die direkte Verarbeitung des gesamten großen Bildmaterials vermeidet. Zusätzlich leiden bestehende Benchmarks zur Bewertung der Wahrnehmungsfähigkeit von LVLMs auf großen RSIs unter begrenzter Fragevielfalt und eingeschränkten Bildgrößen. Wir erstellen einen neuen Benchmark namens LRS-VQA, der 7.333 Frage-Antwort-Paare in 8 Kategorien enthält, mit Bildlängen von bis zu 27.328 Pixeln. Unsere Methode übertrifft bestehende Hochauflösungsstrategien auf vier Datensätzen unter Verwendung derselben Daten. Darüber hinaus zeigt unser Ansatz im Vergleich zu bestehenden Token-Reduktionsmethoden eine höhere Effizienz in Hochauflösungsszenarien. Datensatz und Code sind unter https://github.com/VisionXLab/LRS-VQA verfügbar.
English
Efficient vision-language understanding of large Remote Sensing Images (RSIs)
is meaningful but challenging. Current Large Vision-Language Models (LVLMs)
typically employ limited pre-defined grids to process images, leading to
information loss when handling gigapixel RSIs. Conversely, using unlimited
grids significantly increases computational costs. To preserve image details
while reducing computational complexity, we propose a text-guided token pruning
method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i)
a Region Focus Module (RFM) that leverages text-aware region localization
capability to identify critical vision tokens, and (ii) a coarse-to-fine image
tile selection and vision token pruning strategy based on DIP, which is guided
by RFM outputs and avoids directly processing the entire large imagery.
Additionally, existing benchmarks for evaluating LVLMs' perception ability on
large RSI suffer from limited question diversity and constrained image sizes.
We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs
across 8 categories, with image length up to 27,328 pixels. Our method
outperforms existing high-resolution strategies on four datasets using the same
data. Moreover, compared to existing token reduction methods, our approach
demonstrates higher efficiency under high-resolution settings. Dataset and code
are in https://github.com/VisionXLab/LRS-VQA.Summary
AI-Generated Summary