ChatPaper.aiChatPaper

GeoPixel: 원격 감지에서의 픽셀 기반 대규모 다중 모달 모델

GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

January 23, 2025
저자: Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
cs.AI

초록

최근 대형 다중 모달 모델(LMMs)의 발전은 세밀한 그라운딩을 시각 이해와 대화의 필수적인 요소로 인식했습니다. 그러나 이러한 표현의 장점은 LMMs에서 자연 이미지 영역으로 제한되어 있으며, 이러한 모델들은 원격 감지(RS)에 대해 성능이 저하됩니다. 고해상도 RS 이미지에서의 독특한 도상 시점, 스케일 변화, 그리고 작은 물체의 존재는 영역 수준 이해에서 독특한 도전을 제시합니다. 게다가 RS 내에서 LMMs의 그라운딩 대화 능력의 발전은 세밀하고 RS 도메인 특정한 그라운딩 데이터 부족으로 방해받고 있습니다. 이러한 한계를 해결하기 위해, 우리는 GeoPixel을 제안합니다 - 픽셀 수준 그라운딩을 지원하는 최초의 엔드 투 엔드 고해상도 RS-LMM입니다. 이 능력은 대화에서 교차된 마스크를 생성함으로써 세밀한 시각 지각을 가능하게 합니다. GeoPixel은 어떠한 종횡비에서도 4K HD 해상도를 지원하며, 고정밀 RS 이미지 분석에 이상적입니다. RS 이미지에서 그라운딩 대화 생성(GCG)을 지원하기 위해, 우리는 RS 데이터에 특화된 시각적으로 그라운딩된 데이터셋 GeoPixelD를 세밀하게 조절된 데이터 생성 과정을 위해 RS 데이터에 맞춘 마크 세트 프롬프팅과 공간 사전을 활용하는 반자동화된 파이프라인을 통해 선별합니다. GeoPixel은 픽셀 수준 이해에서 우수한 성능을 보여주며, 단일 대상 및 다중 대상 분할 작업에서 기존 LMMs를 능가합니다. 우리의 방법론적 소거 연구는 전체 아키텍처에서 각 구성 요소의 효과를 검증합니다. 우리의 코드와 데이터는 공개적으로 공개될 것입니다.
English
Recent advances in large multimodal models (LMMs) have recognized fine-grained grounding as an imperative factor of visual understanding and dialogue. However, the benefits of such representation in LMMs are limited to the natural image domain, and these models perform poorly for remote sensing (RS). The distinct overhead viewpoint, scale variation, and presence of small objects in high-resolution RS imagery present a unique challenge in region-level comprehension. Moreover, the development of the grounding conversation capability of LMMs within RS is hindered by the lack of granular, RS domain-specific grounded data. Addressing these limitations, we propose GeoPixel - the first end-to-end high resolution RS-LMM that supports pixel-level grounding. This capability allows fine-grained visual perception by generating interleaved masks in conversation. GeoPixel supports up to 4K HD resolution in any aspect ratio, ideal for high-precision RS image analysis. To support the grounded conversation generation (GCG) in RS imagery, we curate a visually grounded dataset GeoPixelD through a semi-automated pipeline that utilizes set-of-marks prompting and spatial priors tailored for RS data to methodically control the data generation process. GeoPixel demonstrates superior performance in pixel-level comprehension, surpassing existing LMMs in both single-target and multi-target segmentation tasks. Our methodological ablation studies validate the effectiveness of each component in the overall architecture. Our code and data will be publicly released.

Summary

AI-Generated Summary

PDF52January 27, 2025