ChatPaper.aiChatPaper

Atlas-Chat: 대규모 언어 모델을 저자원 모로코 아라비아 방언에 적응하기

Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect

September 26, 2024
저자: Guokan Shang, Hadi Abdine, Yousef Khoubrane, Amr Mohamed, Yassine Abbahaddou, Sofiane Ennadir, Imane Momayiz, Xuguang Ren, Eric Moulines, Preslav Nakov, Michalis Vazirgiannis, Eric Xing
cs.AI

초록

우리는 Atlas-Chat을 소개합니다. 이는 사적인 아랍어를 위해 특별히 개발된 대규모 언어 모델의 최초의 모음입니다. 모로코 아랍어인 다리자에 초점을 맞추어, 기존의 다리자 언어 자원을 통합하고 수작업 및 합성을 통해 새로운 데이터셋을 작성하고 엄격한 품질 통제를 통해 영어 지침을 번역하여 우리의 지침 데이터셋을 구축했습니다. 데이터셋에 맞게 세밀하게 조정된 Atlas-Chat-9B 및 2B 모델은 다리자 지침을 따르고 표준 NLP 작업을 수행하는 능력에서 우수함을 나타냅니다. 특히, 우리의 모델은 LLaMa, Jais, AceGPT와 같은 최첨단 및 아랍어에 특화된 LLMs를 능가하는데, 예를 들어, 우리가 새롭게 소개한 다리자 평가 스위트인 DarijaMMLU에서 13B 모델보다 13%의 성능 향상을 달성했습니다. 이 평가 스위트는 판별적 및 생성적 작업을 모두 다루는 다리자를 위한 것입니다. 더 나아가, 우리는 다양한 세밀 조정 전략과 기본 모델 선택에 대한 실험적 분석을 수행하여 최적의 설정을 결정했습니다. 우리의 모든 자원은 공개적으로 접근 가능하며, 우리의 작업이 현대 LLMs에 의해 데이터가 풍부한 언어를 선호하는 가운데 종종 무시되는 저자원 언어 변형에 대한 지침 조정의 포괄적인 설계 방법론을 제공한다고 믿습니다.
English
We introduce Atlas-Chat, the first-ever collection of large language models specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also known as Darija, we construct our instruction dataset by consolidating existing Darija language resources, creating novel datasets both manually and synthetically, and translating English instructions with stringent quality control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit superior ability in following Darija instructions and performing standard NLP tasks. Notably, our models outperform both state-of-the-art and Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13% performance boost over a larger 13B model on DarijaMMLU, in our newly introduced evaluation suite for Darija covering both discriminative and generative tasks. Furthermore, we perform an experimental analysis of various fine-tuning strategies and base model choices to determine optimal configurations. All our resources are publicly accessible, and we believe our work offers comprehensive design methodologies of instruction-tuning for low-resource language variants, which are often neglected in favor of data-rich languages by contemporary LLMs.

Summary

AI-Generated Summary

PDF292November 13, 2024