SARChat-Bench-2M: SAR 이미지 해석을 위한 다중 작업 비전-언어 벤치마크
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation
February 12, 2025
저자: Zhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
cs.AI
초록
합성개구리레이다(SAR) 원격 감지 이미지 해석 분야에서는 비전 언어 모델(VLMs)이 자연어 처리와 이미지 이해 분야에서 현저한 진전을 이루었지만, 전문 분야에 대한 도메인 전문 지식 부족으로 인해 그 응용은 제한되어 있다. 본 논문은 SAR 이미지를 위한 최초의 대규모 다중 모달 대화 데이터셋인 SARChat-2M을 제안하며, 약 2백만 개의 고품질 이미지-텍스트 쌍을 포함하며 다양한 시나리오와 상세한 대상 주석을 포함하고 있다. 이 데이터셋은 시각적 이해 및 물체 감지 작업과 같은 여러 주요 작업을 지원할 뿐만 아니라 독특한 혁신적 측면을 갖추고 있으며, SAR 도메인을 위한 시각-언어 데이터셋과 벤치마크를 개발하여 VLMs의 SAR 이미지 해석 능력을 가능하게 하고 평가함으로써 다양한 원격 감지 수직 도메인에 걸쳐 다중 모달 데이터셋을 구축하는 패러다임적 프레임워크를 제공한다. 16가지 주류 VLMs에 대한 실험을 통해 데이터셋의 효과가 완전히 검증되었으며, SAR 분야에서 최초의 다중 작업 대화 벤치마크가 성공적으로 수립되었다. 해당 프로젝트는 SAR 시각 언어 모델의 심층적 발전과 광범위한 응용을 촉진하기 위해 https://github.com/JimmyMa99/SARChat에서 공개될 예정이다.
English
In the field of synthetic aperture radar (SAR) remote sensing image
interpretation, although Vision language models (VLMs) have made remarkable
progress in natural language processing and image understanding, their
applications remain limited in professional domains due to insufficient domain
expertise. This paper innovatively proposes the first large-scale multimodal
dialogue dataset for SAR images, named SARChat-2M, which contains approximately
2 million high-quality image-text pairs, encompasses diverse scenarios with
detailed target annotations. This dataset not only supports several key tasks
such as visual understanding and object detection tasks, but also has unique
innovative aspects: this study develop a visual-language dataset and benchmark
for the SAR domain, enabling and evaluating VLMs' capabilities in SAR image
interpretation, which provides a paradigmatic framework for constructing
multimodal datasets across various remote sensing vertical domains. Through
experiments on 16 mainstream VLMs, the effectiveness of the dataset has been
fully verified, and the first multi-task dialogue benchmark in the SAR field
has been successfully established. The project will be released at
https://github.com/JimmyMa99/SARChat, aiming to promote the in-depth
development and wide application of SAR visual language models.Summary
AI-Generated Summary