GeoPixel: Pixelgronding van een groot multimodaal model in remote sensing

Samenvatting

Recente ontwikkelingen in grote multimodale modellen (LMM's) hebben fijngemalen grounding erkend als een essentiële factor voor visueel begrip en dialoog. Echter, de voordelen van dergelijke representatie in LMM's zijn beperkt tot het natuurlijke beelddomein, en deze modellen presteren slecht voor remote sensing (RS). Het afwijkende bovenaanzicht, schaalvariatie en aanwezigheid van kleine objecten in hoogwaardige RS-beelden vormen een unieke uitdaging voor regionaal begrip. Bovendien wordt de ontwikkeling van de grounding-conversatiecapaciteit van LMM's binnen RS belemmerd door het gebrek aan gedetailleerde, op RS-domein specifieke, geaarde gegevens. Om deze beperkingen aan te pakken, stellen we GeoPixel voor - de eerste end-to-end hoge resolutie RS-LMM die pixelniveau grounding ondersteunt. Deze capaciteit maakt fijngemeten visuele perceptie mogelijk door het genereren van geïnterlinieerde maskers in gesprekken. GeoPixel ondersteunt tot 4K HD-resolutie in elk aspectratio, ideaal voor hoogwaardige RS-beeldanalyse. Om de grounded conversatiegeneratie (GCG) in RS-beelden te ondersteunen, stellen we een visueel geaarde dataset GeoPixelD samen via een semi-geautomatiseerd proces dat gebruikmaakt van set-of-marks prompting en ruimtelijke prioriteiten die zijn afgestemd op RS-gegevens om het datageneratieproces methodisch te controleren. GeoPixel toont superieure prestaties in pixelniveau begrip, waarbij bestaande LMM's worden overtroffen in zowel enkelvoudige als meervoudige segmentatietaken. Onze methodologische ablatiestudies bevestigen de effectiviteit van elk onderdeel in de algehele architectuur. Onze code en gegevens zullen openbaar worden vrijgegeven.

English

Recent advances in large multimodal models (LMMs) have recognized fine-grained grounding as an imperative factor of visual understanding and dialogue. However, the benefits of such representation in LMMs are limited to the natural image domain, and these models perform poorly for remote sensing (RS). The distinct overhead viewpoint, scale variation, and presence of small objects in high-resolution RS imagery present a unique challenge in region-level comprehension. Moreover, the development of the grounding conversation capability of LMMs within RS is hindered by the lack of granular, RS domain-specific grounded data. Addressing these limitations, we propose GeoPixel - the first end-to-end high resolution RS-LMM that supports pixel-level grounding. This capability allows fine-grained visual perception by generating interleaved masks in conversation. GeoPixel supports up to 4K HD resolution in any aspect ratio, ideal for high-precision RS image analysis. To support the grounded conversation generation (GCG) in RS imagery, we curate a visually grounded dataset GeoPixelD through a semi-automated pipeline that utilizes set-of-marks prompting and spatial priors tailored for RS data to methodically control the data generation process. GeoPixel demonstrates superior performance in pixel-level comprehension, surpassing existing LMMs in both single-target and multi-target segmentation tasks. Our methodological ablation studies validate the effectiveness of each component in the overall architecture. Our code and data will be publicly released.

GeoPixel: Pixelgronding van een groot multimodaal model in remote sensing

GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Samenvatting

Summary

Support