Atlas-Chat: 대규모 언어 모델을 저자원 모로코 아라비아 방언에 적응하기
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect
September 26, 2024
저자: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI
초록
우리는 Atlas-Chat을 소개합니다. 이는 사적인 아랍어를 위해 특별히 개발된 대규모 언어 모델의 최초의 모음입니다. 모로코 아랍어인 다리자에 초점을 맞추어, 기존의 다리자 언어 자원을 통합하고 수작업 및 합성을 통해 새로운 데이터셋을 작성하고 엄격한 품질 통제를 통해 영어 지침을 번역하여 우리의 지침 데이터셋을 구축했습니다. 데이터셋에 맞게 세밀하게 조정된 Atlas-Chat-9B 및 2B 모델은 다리자 지침을 따르고 표준 NLP 작업을 수행하는 능력에서 우수함을 나타냅니다. 특히, 우리의 모델은 LLaMa, Jais, AceGPT와 같은 최첨단 및 아랍어에 특화된 LLMs를 능가하는데, 예를 들어, 우리가 새롭게 소개한 다리자 평가 스위트인 DarijaMMLU에서 13B 모델보다 13%의 성능 향상을 달성했습니다. 이 평가 스위트는 판별적 및 생성적 작업을 모두 다루는 다리자를 위한 것입니다. 더 나아가, 우리는 다양한 세밀 조정 전략과 기본 모델 선택에 대한 실험적 분석을 수행하여 최적의 설정을 결정했습니다. 우리의 모든 자원은 공개적으로 접근 가능하며, 우리의 작업이 현대 LLMs에 의해 데이터가 풍부한 언어를 선호하는 가운데 종종 무시되는 저자원 언어 변형에 대한 지침 조정의 포괄적인 설계 방법론을 제공한다고 믿습니다.
English
We introduce Atlas-Chat, the first-ever collection of large language models
specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also
known as Darija, we construct our instruction dataset by consolidating existing
Darija language resources, creating novel datasets both manually and
synthetically, and translating English instructions with stringent quality
control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit
superior ability in following Darija instructions and performing standard NLP
tasks. Notably, our models outperform both state-of-the-art and
Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13%
performance boost over a larger 13B model on DarijaMMLU, in our newly
introduced evaluation suite for Darija covering both discriminative and
generative tasks. Furthermore, we perform an experimental analysis of various
fine-tuning strategies and base model choices to determine optimal
configurations. All our resources are publicly accessible, and we believe our
work offers comprehensive design methodologies of instruction-tuning for
low-resource language variants, which are often neglected in favor of data-rich
languages by contemporary LLMs.Summary
AI-Generated Summary