AIN: 아랍어 포괄적 대규모 다중 모달 모델
AIN: The Arabic INclusive Large Multimodal Model
January 31, 2025
저자: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI
초록
대형 언어 모델 (LLM)의 신속한 발전과 대형 다중 모달 모델 (LMM)로 진화함에 따라, 영어와 중국어와 같은 고자원 언어에서 상당한 발전이 이루어졌습니다. 아라비아어 LLM은 주목할 만한 발전을 보았지만, 아라비아어 LMM은 대부분 미개척 상태로, 종종 언어와 시각 이해의 몇 가지 특정 측면에만 초점을 맞추고 있습니다. 이 간극을 메우기 위해 우리는 AIN을 소개합니다. AIN은 다양한 영역에서 뛰어난 성과를 내기 위해 설계된 아라비아 포괄적 다중 모달 모델로, 영어-아라비아어 이중 언어 LMM으로, 360만 개의 고품질 아라비아어-영어 다중 모달 데이터 샘플을 활용합니다. AIN은 최첨단 아라비아 성능을 보여주며, 강력한 영어 언어 시각 능력을 갖추고 있습니다. 최근 CAMEL-Bench 벤치마크에서는 다중 이미지 이해, 복잡한 시각 지각, 필기 문서 이해, 비디오 이해, 의료 영상, 식물 질병, 원격 감지 기반 토지 이용 이해를 포함한 38개 하위 도메인으로 구성된 벤치마크에서, AIN은 8개 도메인과 38개 하위 도메인을 평균한 3.4%의 절대적 이득으로 GPT-4o를 능가하는 7B 모델로 강력한 성능을 보여주었습니다. AIN의 우수한 능력은 다양한 응용 프로그램에서 아라비아어 사용자들에게 고급 다중 모달 생성 AI 도구를 제공하는 중요한 한 걸음으로 위치시킵니다.
English
Amid the swift progress of large language models (LLMs) and their evolution
into large multimodal models (LMMs), significant strides have been made in
high-resource languages such as English and Chinese. While Arabic LLMs have
seen notable progress, Arabic LMMs remain largely unexplored, often narrowly
focusing on a few specific aspects of the language and visual understanding. To
bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal
Model-designed to excel across diverse domains. AIN is an English-Arabic
bilingual LMM designed to excel in English and Arabic, leveraging carefully
constructed 3.6 million high-quality Arabic-English multimodal data samples.
AIN demonstrates state-of-the-art Arabic performance, while also possessing
strong English-language visual capabilities. On the recent CAMEL-Bench
benchmark comprising 38 sub-domains including, multi-image understanding,
complex visual perception, handwritten document understanding, video
understanding, medical imaging, plant diseases, and remote sensing-based land
use understanding, our AIN demonstrates strong performance with the 7B model
outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains
and 38 sub-domains. AIN's superior capabilities position it as a significant
step toward empowering Arabic speakers with advanced multimodal generative AI
tools across diverse applications.Summary
AI-Generated Summary