Xmodel-1.5: 10억 규모의 다국어 대규모 언어 모델

Xmodel-1.5: An 1B-scale Multilingual LLM

November 15, 2024
저자: Wang Qun, Liu Yang, Lin Qingquan, Jiang Ling
cs.AI

초록

저희는 약 2조 토큰에 대해 사전 훈련된 새로운 10억 개 파라미터 다국어 대형 모델인 Xmodel-1.5를 소개합니다. 이 모델은 몇 가지 언어에서 강력한 성능을 보여주며 특히 태국어, 아랍어, 프랑스어에서 높은 결과를 보여줍니다. 또한 중국어와 영어에서도 효과적입니다. 더불어, 저희는 태국어 평가 데이터셋을 공개함으로써 연구 커뮤니티에 기여합니다. 이 데이터셋은 출러롱콘 대학교 통합 혁신 학부 학생들이 주석을 단 수백 개의 질문을 포함하고 있습니다. 결과가 유망하긴 하지만, 아직 개선할 여지가 있다는 점을 인정합니다. 이 연구가 다국어 인공지능 연구의 지속적인 노력을 촉진하고 다양한 자연어 처리 작업에서 더 나은 상호 언어 이해를 촉진하길 희망합니다. 저희의 모델과 코드는 GitHub(https://github.com/XiaoduoAILab/XmodelLM)에서 공개되어 있습니다.
English
We introduce Xmodel-1.5, a novel 1-billion-parameter multilingual large model pretrained on approximately 2 trillion tokens. The model demonstrates strong performance across several languages, with particularly notable results in Thai, Arabic, and French, alongside its effectiveness in Chinese and English. In addition, we contribute to the research community by releasing a Thai evaluation dataset, which includes hundreds of questions annotated by students from Chulalongkorn University's School of Integrated Innovation. While the results are promising, we acknowledge that there is still room for improvement. We hope this work advances ongoing efforts in multilingual AI research and promotes better cross-linguistic understanding in various natural language processing tasks. Our models and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelLM.

Summary

AI-Generated Summary

PDF142November 18, 2024