CAMEL-Bench: 포괄적인 아라비아어 LMM 벤치마크
CAMEL-Bench: A Comprehensive Arabic LMM Benchmark
October 24, 2024
저자: Sara Ghaboura, Ahmed Heakl, Omkar Thawakar, Ali Alharthi, Ines Riahi, Abduljalil Saif, Jorma Laaksonen, Fahad S. Khan, Salman Khan, Rao M. Anwer
cs.AI
초록
최근 몇 년 동안 대규모 다중 모달 모델(LMMs)의 개발에 상당한 관심이 집중되었으며, 이 모델들은 다양한 시각적 추론 및 이해 작업을 수행할 수 있습니다. 이에 따라 여러 LMM 벤치마크가 소개되어 LMMs를 다양한 작업에서 평가하게 되었습니다. 그러나 대부분의 기존 LMM 평가 벤치마크는 주로 영어 중심입니다. 본 연구에서는 4억 명 이상의 대규모 인구를 대표하는 아랍어 언어용 포괄적인 LMM 평가 벤치마크인 CAMEL-Bench를 개발했습니다. 제안된 벤치마크는 다중 이미지 이해, 복잡한 시각적 지각, 필기 문서 이해, 비디오 이해, 의료 영상, 식물 질병, 원격 감지 기반 토지 이용 이해 등 8가지 다양한 도메인과 38개 하위 도메인으로 구성되어 넓은 시나리오 일반화를 평가합니다. 저희 CAMEL-Bench는 약 29,036개의 질문으로 구성되어 있으며, 이는 더 큰 샘플 풀에서 선별되었으며, 품질은 신뢰할 수 있는 모델 평가를 보장하기 위해 원어민들에 의해 수동으로 확인되었습니다. 저희는 GPT-4 시리즈를 포함한 폐쇄 소스와 오픈 소스 LMMs의 평가를 실시했습니다. 분석 결과, 특히 최고의 오픈 소스 모델들 사이에서 상당한 개선이 필요함을 밝혀냈으며, 심지어 폐쇄 소스인 GPT-4o도 전체 점수의 62%를 달성했습니다. 저희의 벤치마크 및 평가 스크립트는 오픈 소스로 제공됩니다.
English
Recent years have witnessed a significant interest in developing large
multimodal models (LMMs) capable of performing various visual reasoning and
understanding tasks. This has led to the introduction of multiple LMM
benchmarks to evaluate LMMs on different tasks. However, most existing LMM
evaluation benchmarks are predominantly English-centric. In this work, we
develop a comprehensive LMM evaluation benchmark for the Arabic language to
represent a large population of over 400 million speakers. The proposed
benchmark, named CAMEL-Bench, comprises eight diverse domains and 38
sub-domains including, multi-image understanding, complex visual perception,
handwritten document understanding, video understanding, medical imaging, plant
diseases, and remote sensing-based land use understanding to evaluate broad
scenario generalizability. Our CAMEL-Bench comprises around 29,036 questions
that are filtered from a larger pool of samples, where the quality is manually
verified by native speakers to ensure reliable model assessment. We conduct
evaluations of both closed-source, including GPT-4 series, and open-source
LMMs. Our analysis reveals the need for substantial improvement, especially
among the best open-source models, with even the closed-source GPT-4o achieving
an overall score of 62%. Our benchmark and evaluation scripts are open-sourced.Summary
AI-Generated Summary