CAMEL-Bench: Ein umfassender Benchmark für arabische LMM
CAMEL-Bench: A Comprehensive Arabic LMM Benchmark
October 24, 2024
Autoren: Sara Ghaboura, Ahmed Heakl, Omkar Thawakar, Ali Alharthi, Ines Riahi, Abduljalil Saif, Jorma Laaksonen, Fahad S. Khan, Salman Khan, Rao M. Anwer
cs.AI
Zusammenfassung
In den letzten Jahren hat das Interesse an der Entwicklung großer multimodaler Modelle (LMMs) zugenommen, die in der Lage sind, verschiedene visuelle Denk- und Verständnisaufgaben auszuführen. Dies hat zur Einführung mehrerer LMM-Benchmarktests geführt, um LMMs in verschiedenen Aufgaben zu bewerten. Die meisten bestehenden LMM-Evaluierungsbenchmarktests sind jedoch überwiegend auf die englische Sprache ausgerichtet. In dieser Arbeit entwickeln wir einen umfassenden LMM-Evaluierungsbenchmark für die arabische Sprache, um eine große Bevölkerung von über 400 Millionen Sprechern zu repräsentieren. Der vorgeschlagene Benchmark, namens CAMEL-Bench, umfasst acht verschiedene Bereiche und 38 Unterbereiche, darunter Multi-Bild-Verständnis, komplexe visuelle Wahrnehmung, Verständnis von handschriftlichen Dokumenten, Videoverständnis, medizinische Bildgebung, Pflanzenkrankheiten und fernerkundungsbasiertes Verständnis der Landnutzung, um die breite Szenariogeneralisierbarkeit zu bewerten. Unser CAMEL-Bench umfasst rund 29.036 Fragen, die aus einem größeren Pool von Beispielen gefiltert sind, wobei die Qualität von Muttersprachlern manuell überprüft wird, um eine zuverlässige Modellbewertung sicherzustellen. Wir führen Evaluierungen sowohl von Closed-Source-Modellen, einschließlich der GPT-4-Serie, als auch von Open-Source-LMMs durch. Unsere Analyse zeigt den Bedarf an erheblicher Verbesserung auf, insbesondere bei den besten Open-Source-Modellen, wobei selbst das Closed-Source-Modell GPT-4o einen Gesamtscore von 62% erreicht. Unser Benchmark und Evaluierungsskripte sind Open-Source.
English
Recent years have witnessed a significant interest in developing large
multimodal models (LMMs) capable of performing various visual reasoning and
understanding tasks. This has led to the introduction of multiple LMM
benchmarks to evaluate LMMs on different tasks. However, most existing LMM
evaluation benchmarks are predominantly English-centric. In this work, we
develop a comprehensive LMM evaluation benchmark for the Arabic language to
represent a large population of over 400 million speakers. The proposed
benchmark, named CAMEL-Bench, comprises eight diverse domains and 38
sub-domains including, multi-image understanding, complex visual perception,
handwritten document understanding, video understanding, medical imaging, plant
diseases, and remote sensing-based land use understanding to evaluate broad
scenario generalizability. Our CAMEL-Bench comprises around 29,036 questions
that are filtered from a larger pool of samples, where the quality is manually
verified by native speakers to ensure reliable model assessment. We conduct
evaluations of both closed-source, including GPT-4 series, and open-source
LMMs. Our analysis reveals the need for substantial improvement, especially
among the best open-source models, with even the closed-source GPT-4o achieving
an overall score of 62%. Our benchmark and evaluation scripts are open-sourced.Summary
AI-Generated Summary