ChatPaper.aiChatPaper

CAMEL-Bench: Un Amplio Banco de Pruebas de Modelos de Lenguaje Árabe

CAMEL-Bench: A Comprehensive Arabic LMM Benchmark

October 24, 2024
Autores: Sara Ghaboura, Ahmed Heakl, Omkar Thawakar, Ali Alharthi, Ines Riahi, Abduljalil Saif, Jorma Laaksonen, Fahad S. Khan, Salman Khan, Rao M. Anwer
cs.AI

Resumen

Los últimos años han sido testigos de un gran interés en el desarrollo de modelos multimodales grandes (LMMs) capaces de realizar diversas tareas de razonamiento y comprensión visual. Esto ha llevado a la introducción de múltiples bancos de pruebas de evaluación de LMMs para evaluar su desempeño en diferentes tareas. Sin embargo, la mayoría de los bancos de pruebas de evaluación de LMM existentes están predominantemente centrados en el idioma inglés. En este trabajo, desarrollamos un banco de pruebas de evaluación de LMM exhaustivo para el idioma árabe para representar a una gran población de más de 400 millones de hablantes. El banco de pruebas propuesto, llamado CAMEL-Bench, comprende ocho dominios diversos y 38 subdominios que incluyen comprensión multiimagen, percepción visual compleja, comprensión de documentos manuscritos, comprensión de videos, imágenes médicas, enfermedades de plantas y comprensión del uso de la tierra basada en teledetección para evaluar la generalización del escenario amplio. Nuestro CAMEL-Bench consta de alrededor de 29,036 preguntas que se filtran de un conjunto más grande de muestras, donde la calidad es verificada manualmente por hablantes nativos para garantizar una evaluación confiable del modelo. Realizamos evaluaciones tanto de modelos de código cerrado, incluida la serie GPT-4, como de LMMs de código abierto. Nuestro análisis revela la necesidad de mejoras sustanciales, especialmente entre los mejores modelos de código abierto, incluso logrando el modelo de código cerrado GPT-4o una puntuación general del 62%. Nuestro banco de pruebas y scripts de evaluación están disponibles en código abierto.
English
Recent years have witnessed a significant interest in developing large multimodal models (LMMs) capable of performing various visual reasoning and understanding tasks. This has led to the introduction of multiple LMM benchmarks to evaluate LMMs on different tasks. However, most existing LMM evaluation benchmarks are predominantly English-centric. In this work, we develop a comprehensive LMM evaluation benchmark for the Arabic language to represent a large population of over 400 million speakers. The proposed benchmark, named CAMEL-Bench, comprises eight diverse domains and 38 sub-domains including, multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant diseases, and remote sensing-based land use understanding to evaluate broad scenario generalizability. Our CAMEL-Bench comprises around 29,036 questions that are filtered from a larger pool of samples, where the quality is manually verified by native speakers to ensure reliable model assessment. We conduct evaluations of both closed-source, including GPT-4 series, and open-source LMMs. Our analysis reveals the need for substantial improvement, especially among the best open-source models, with even the closed-source GPT-4o achieving an overall score of 62%. Our benchmark and evaluation scripts are open-sourced.

Summary

AI-Generated Summary

PDF122November 16, 2024