Swan en ArabicMTEB: Dialectbewuste, op Arabisch gerichte, cross-linguale en cross-culturele embeddingmodellen en benchmarks
Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks
November 2, 2024
Auteurs: Gagan Bhatia, El Moatez Billah Nagoudi, Abdellah El Mekki, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI
Samenvatting
We introduceren Swan, een familie van embedding modellen gericht op de Arabische taal, die zowel kleinschalige als grootschalige toepassingen aanpakt. Swan omvat twee varianten: Swan-Small, gebaseerd op ARBERTv2, en Swan-Large, gebouwd op ArMistral, een voorgeleerd Arabisch groot taalmodel. Om deze modellen te evalueren, stellen we ArabicMTEB voor, een uitgebreide benchmark suite die de prestaties van cross-linguale, multi-dialectale, multi-domein- en multi-culturele Arabische tekstembedding beoordeelt, waarbij acht diverse taken worden behandeld en 94 datasets bestrijkt. Swan-Large behaalt state-of-the-art resultaten, overtreft Multilingual-E5-large in de meeste Arabische taken, terwijl de Swan-Small consequent Multilingual-E5 base overtreft. Onze uitgebreide evaluaties tonen aan dat Swan modellen zowel dialectaal als cultureel bewust zijn, uitblinken in verschillende Arabische domeinen en aanzienlijke kostenefficiëntie bieden. Dit werk bevordert aanzienlijk het veld van Arabische taalmodellering en levert waardevolle bronnen voor toekomstig onderzoek en toepassingen in de Arabische natuurlijke taalverwerking. Onze modellen en benchmark zullen openbaar toegankelijk worden gemaakt voor onderzoek.
English
We introduce Swan, a family of embedding models centred around the Arabic
language, addressing both small-scale and large-scale use cases. Swan includes
two variants: Swan-Small, based on ARBERTv2, and Swan-Large, built on
ArMistral, a pretrained Arabic large language model. To evaluate these models,
we propose ArabicMTEB, a comprehensive benchmark suite that assesses
cross-lingual, multi-dialectal, multi-domain, and multi-cultural Arabic text
embedding performance, covering eight diverse tasks and spanning 94 datasets.
Swan-Large achieves state-of-the-art results, outperforming
Multilingual-E5-large in most Arabic tasks, while the Swan-Small consistently
surpasses Multilingual-E5 base. Our extensive evaluations demonstrate that Swan
models are both dialectally and culturally aware, excelling across various
Arabic domains while offering significant monetary efficiency. This work
significantly advances the field of Arabic language modelling and provides
valuable resources for future research and applications in Arabic natural
language processing. Our models and benchmark will be made publicly accessible
for research.Summary
AI-Generated Summary