GeoPixel: Pixelgronding van een groot multimodaal model in remote sensing
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing
January 23, 2025
Auteurs: Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
cs.AI
Samenvatting
Recente ontwikkelingen in grote multimodale modellen (LMM's) hebben fijngemalen grounding erkend als een essentiële factor voor visueel begrip en dialoog. Echter, de voordelen van dergelijke representatie in LMM's zijn beperkt tot het natuurlijke beelddomein, en deze modellen presteren slecht voor remote sensing (RS). Het afwijkende bovenaanzicht, schaalvariatie en aanwezigheid van kleine objecten in hoogwaardige RS-beelden vormen een unieke uitdaging voor regionaal begrip. Bovendien wordt de ontwikkeling van de grounding-conversatiecapaciteit van LMM's binnen RS belemmerd door het gebrek aan gedetailleerde, op RS-domein specifieke, geaarde gegevens. Om deze beperkingen aan te pakken, stellen we GeoPixel voor - de eerste end-to-end hoge resolutie RS-LMM die pixelniveau grounding ondersteunt. Deze capaciteit maakt fijngemeten visuele perceptie mogelijk door het genereren van geïnterlinieerde maskers in gesprekken. GeoPixel ondersteunt tot 4K HD-resolutie in elk aspectratio, ideaal voor hoogwaardige RS-beeldanalyse. Om de grounded conversatiegeneratie (GCG) in RS-beelden te ondersteunen, stellen we een visueel geaarde dataset GeoPixelD samen via een semi-geautomatiseerd proces dat gebruikmaakt van set-of-marks prompting en ruimtelijke prioriteiten die zijn afgestemd op RS-gegevens om het datageneratieproces methodisch te controleren. GeoPixel toont superieure prestaties in pixelniveau begrip, waarbij bestaande LMM's worden overtroffen in zowel enkelvoudige als meervoudige segmentatietaken. Onze methodologische ablatiestudies bevestigen de effectiviteit van elk onderdeel in de algehele architectuur. Onze code en gegevens zullen openbaar worden vrijgegeven.
English
Recent advances in large multimodal models (LMMs) have recognized
fine-grained grounding as an imperative factor of visual understanding and
dialogue. However, the benefits of such representation in LMMs are limited to
the natural image domain, and these models perform poorly for remote sensing
(RS). The distinct overhead viewpoint, scale variation, and presence of small
objects in high-resolution RS imagery present a unique challenge in
region-level comprehension. Moreover, the development of the grounding
conversation capability of LMMs within RS is hindered by the lack of granular,
RS domain-specific grounded data. Addressing these limitations, we propose
GeoPixel - the first end-to-end high resolution RS-LMM that supports
pixel-level grounding. This capability allows fine-grained visual perception by
generating interleaved masks in conversation. GeoPixel supports up to 4K HD
resolution in any aspect ratio, ideal for high-precision RS image analysis. To
support the grounded conversation generation (GCG) in RS imagery, we curate a
visually grounded dataset GeoPixelD through a semi-automated pipeline that
utilizes set-of-marks prompting and spatial priors tailored for RS data to
methodically control the data generation process. GeoPixel demonstrates
superior performance in pixel-level comprehension, surpassing existing LMMs in
both single-target and multi-target segmentation tasks. Our methodological
ablation studies validate the effectiveness of each component in the overall
architecture. Our code and data will be publicly released.Summary
AI-Generated Summary