CAMEL-Bench : un banc d'essai exhaustif pour les modèles de langue arabes

Résumé

Les dernières années ont vu un intérêt significatif pour le développement de grands modèles multimodaux (LMM) capables d'effectuer diverses tâches de raisonnement visuel et de compréhension. Cela a conduit à l'introduction de plusieurs bancs d'essai LMM pour évaluer les LMM sur différentes tâches. Cependant, la plupart des bancs d'essai d'évaluation LMM existants sont principalement centrés sur l'anglais. Dans ce travail, nous développons un banc d'essai d'évaluation LMM complet pour la langue arabe afin de représenter une grande population de plus de 400 millions de locuteurs. Le banc d'essai proposé, nommé CAMEL-Bench, comprend huit domaines divers et 38 sous-domaines, notamment la compréhension multi-images, la perception visuelle complexe, la compréhension des documents manuscrits, la compréhension des vidéos, l'imagerie médicale, les maladies des plantes et la compréhension de l'utilisation des terres basée sur la télédétection pour évaluer la généralisabilité des scénarios larges. Notre CAMEL-Bench comprend environ 29 036 questions qui sont filtrées à partir d'un plus grand ensemble d'échantillons, dont la qualité est vérifiée manuellement par des locuteurs natifs pour garantir une évaluation fiable des modèles. Nous menons des évaluations à la fois sur des modèles propriétaires, y compris la série GPT-4, et sur des LMM open-source. Notre analyse révèle la nécessité d'une amélioration substantielle, en particulier parmi les meilleurs modèles open-source, même si le modèle propriétaire GPT-4o atteint un score global de 62%. Notre banc d'essai et nos scripts d'évaluation sont open-source.

English

Recent years have witnessed a significant interest in developing large multimodal models (LMMs) capable of performing various visual reasoning and understanding tasks. This has led to the introduction of multiple LMM benchmarks to evaluate LMMs on different tasks. However, most existing LMM evaluation benchmarks are predominantly English-centric. In this work, we develop a comprehensive LMM evaluation benchmark for the Arabic language to represent a large population of over 400 million speakers. The proposed benchmark, named CAMEL-Bench, comprises eight diverse domains and 38 sub-domains including, multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant diseases, and remote sensing-based land use understanding to evaluate broad scenario generalizability. Our CAMEL-Bench comprises around 29,036 questions that are filtered from a larger pool of samples, where the quality is manually verified by native speakers to ensure reliable model assessment. We conduct evaluations of both closed-source, including GPT-4 series, and open-source LMMs. Our analysis reveals the need for substantial improvement, especially among the best open-source models, with even the closed-source GPT-4o achieving an overall score of 62%. Our benchmark and evaluation scripts are open-sourced.

CAMEL-Bench : un banc d'essai exhaustif pour les modèles de langue arabes

CAMEL-Bench: A Comprehensive Arabic LMM Benchmark

Résumé

Summary

Support