Swan en ArabicMTEB: Dialectbewuste, op Arabisch gerichte, cross-linguale en cross-culturele embeddingmodellen en benchmarks

Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks

November 2, 2024
Auteurs: Gagan Bhatia, El Moatez Billah Nagoudi, Abdellah El Mekki, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

Samenvatting

We introduceren Swan, een familie van embedding modellen gericht op de Arabische taal, die zowel kleinschalige als grootschalige toepassingen aanpakt. Swan omvat twee varianten: Swan-Small, gebaseerd op ARBERTv2, en Swan-Large, gebouwd op ArMistral, een voorgeleerd Arabisch groot taalmodel. Om deze modellen te evalueren, stellen we ArabicMTEB voor, een uitgebreide benchmark suite die de prestaties van cross-linguale, multi-dialectale, multi-domein- en multi-culturele Arabische tekstembedding beoordeelt, waarbij acht diverse taken worden behandeld en 94 datasets bestrijkt. Swan-Large behaalt state-of-the-art resultaten, overtreft Multilingual-E5-large in de meeste Arabische taken, terwijl de Swan-Small consequent Multilingual-E5 base overtreft. Onze uitgebreide evaluaties tonen aan dat Swan modellen zowel dialectaal als cultureel bewust zijn, uitblinken in verschillende Arabische domeinen en aanzienlijke kostenefficiëntie bieden. Dit werk bevordert aanzienlijk het veld van Arabische taalmodellering en levert waardevolle bronnen voor toekomstig onderzoek en toepassingen in de Arabische natuurlijke taalverwerking. Onze modellen en benchmark zullen openbaar toegankelijk worden gemaakt voor onderzoek.
English
We introduce Swan, a family of embedding models centred around the Arabic language, addressing both small-scale and large-scale use cases. Swan includes two variants: Swan-Small, based on ARBERTv2, and Swan-Large, built on ArMistral, a pretrained Arabic large language model. To evaluate these models, we propose ArabicMTEB, a comprehensive benchmark suite that assesses cross-lingual, multi-dialectal, multi-domain, and multi-cultural Arabic text embedding performance, covering eight diverse tasks and spanning 94 datasets. Swan-Large achieves state-of-the-art results, outperforming Multilingual-E5-large in most Arabic tasks, while the Swan-Small consistently surpasses Multilingual-E5 base. Our extensive evaluations demonstrate that Swan models are both dialectally and culturally aware, excelling across various Arabic domains while offering significant monetary efficiency. This work significantly advances the field of Arabic language modelling and provides valuable resources for future research and applications in Arabic natural language processing. Our models and benchmark will be made publicly accessible for research.

Summary

AI-Generated Summary

PDF32November 13, 2024