CAMEL-Bench: Een uitgebreide benchmark voor Arabische taalmodellen.

Samenvatting

De afgelopen jaren is er een aanzienlijke interesse geweest in het ontwikkelen van grote multimodale modellen (LMM's) die in staat zijn om verschillende visuele redeneer- en begrips taken uit te voeren. Dit heeft geleid tot de introductie van meerdere LMM-beoordelingspunten om LMM's te evalueren op verschillende taken. Echter zijn de meeste bestaande LMM-beoordelingspunten voornamelijk gericht op het Engels. In dit werk ontwikkelen we een uitgebreid LMM-beoordelingspunt voor de Arabische taal om een grote populatie van meer dan 400 miljoen sprekers te vertegenwoordigen. Het voorgestelde beoordelingspunt, genaamd CAMEL-Bench, omvat acht diverse domeinen en 38 subdomeinen, waaronder multi-beeldbegrip, complex visueel waarnemen, begrip van handgeschreven documenten, video begrip, medische beeldvorming, plantenziekten en begrip van landgebruik op basis van remote sensing om brede scenario generaliseerbaarheid te evalueren. Onze CAMEL-Bench bestaat uit ongeveer 29.036 vragen die zijn gefilterd uit een grotere pool van voorbeelden, waarvan de kwaliteit handmatig is geverifieerd door moedertaalsprekers om betrouwbare modelbeoordeling te garanderen. We voeren evaluaties uit van zowel gesloten-bron, waaronder de GPT-4 serie, als open-source LMM's. Onze analyse onthult de noodzaak van aanzienlijke verbetering, vooral bij de beste open-source modellen, waarbij zelfs de gesloten-bron GPT-4o een algehele score van 62% behaalt. Ons beoordelingspunt en evaluatiescripts zijn open-source.

English

Recent years have witnessed a significant interest in developing large multimodal models (LMMs) capable of performing various visual reasoning and understanding tasks. This has led to the introduction of multiple LMM benchmarks to evaluate LMMs on different tasks. However, most existing LMM evaluation benchmarks are predominantly English-centric. In this work, we develop a comprehensive LMM evaluation benchmark for the Arabic language to represent a large population of over 400 million speakers. The proposed benchmark, named CAMEL-Bench, comprises eight diverse domains and 38 sub-domains including, multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant diseases, and remote sensing-based land use understanding to evaluate broad scenario generalizability. Our CAMEL-Bench comprises around 29,036 questions that are filtered from a larger pool of samples, where the quality is manually verified by native speakers to ensure reliable model assessment. We conduct evaluations of both closed-source, including GPT-4 series, and open-source LMMs. Our analysis reveals the need for substantial improvement, especially among the best open-source models, with even the closed-source GPT-4o achieving an overall score of 62%. Our benchmark and evaluation scripts are open-sourced.

CAMEL-Bench: Een uitgebreide benchmark voor Arabische taalmodellen.

CAMEL-Bench: A Comprehensive Arabic LMM Benchmark

Samenvatting

Support