CAMEL-Bench: un Benchmark completo per Modelli Linguistici Arabi

Abstract

Gli ultimi anni hanno visto un significativo interesse nello sviluppo di grandi modelli multimodali (LMM) capaci di eseguire varie attività di ragionamento e comprensione visiva. Ciò ha portato all'introduzione di diversi benchmark LMM per valutare i LMM su diverse attività. Tuttavia, la maggior parte dei benchmark di valutazione LMM esistenti sono prevalentemente incentrati sull'inglese. In questo lavoro, sviluppiamo un ampio benchmark di valutazione LMM per la lingua araba per rappresentare una vasta popolazione di oltre 400 milioni di parlanti. Il benchmark proposto, chiamato CAMEL-Bench, comprende otto domini diversi e 38 sotto-domini, tra cui comprensione multi-immagine, percezione visiva complessa, comprensione di documenti scritti a mano, comprensione di video, imaging medico, malattie delle piante e comprensione dell'uso del suolo basato su telerilevamento per valutare una vasta generalizzabilità degli scenari. Il nostro CAMEL-Bench comprende circa 29.036 domande che sono filtrate da un pool più ampio di campioni, dove la qualità è verificata manualmente da madrelingua per garantire una valutazione affidabile del modello. Conduciamo valutazioni sia su modelli closed-source, inclusa la serie GPT-4, che su LMM open-source. La nostra analisi rivela la necessità di miglioramenti sostanziali, specialmente tra i migliori modelli open-source, con persino il modello closed-source GPT-4o che raggiunge un punteggio complessivo del 62%. Il nostro benchmark e gli script di valutazione sono open-source.

English

Recent years have witnessed a significant interest in developing large multimodal models (LMMs) capable of performing various visual reasoning and understanding tasks. This has led to the introduction of multiple LMM benchmarks to evaluate LMMs on different tasks. However, most existing LMM evaluation benchmarks are predominantly English-centric. In this work, we develop a comprehensive LMM evaluation benchmark for the Arabic language to represent a large population of over 400 million speakers. The proposed benchmark, named CAMEL-Bench, comprises eight diverse domains and 38 sub-domains including, multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant diseases, and remote sensing-based land use understanding to evaluate broad scenario generalizability. Our CAMEL-Bench comprises around 29,036 questions that are filtered from a larger pool of samples, where the quality is manually verified by native speakers to ensure reliable model assessment. We conduct evaluations of both closed-source, including GPT-4 series, and open-source LMMs. Our analysis reveals the need for substantial improvement, especially among the best open-source models, with even the closed-source GPT-4o achieving an overall score of 62%. Our benchmark and evaluation scripts are open-sourced.

CAMEL-Bench: un Benchmark completo per Modelli Linguistici Arabi

CAMEL-Bench: A Comprehensive Arabic LMM Benchmark

Abstract

Summary

Support