ChatPaper.aiChatPaper

OpenCSG 중국어 말뭉치: LLM 훈련을 위한 일련의 고품질 중국어 데이터셋

OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

January 14, 2025
저자: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI

초록

대형 언어 모델(LLMs)은 놀라운 능력을 보여주었지만, 그들의 성공은 사전 훈련 말뭉치의 품질에 크게 의존합니다. 중국어 LLMs의 경우, 고품질 중국어 데이터셋의 부족은 종종 그들의 성능을 제한하는 중요한 도전 과제로 나타납니다. 이 문제를 해결하기 위해, 우리는 LLM 사전 훈련, 사후 훈련 및 세밀 조정을 위해 특별히 설계된 고품질 데이터셋 시리즈인 OpenCSG 중국어 말뭉치를 제안합니다. 이 말뭉치에는 다양한 중국 웹 소스에서 유래한 걸러낸 고품질 콘텐츠에 중점을 둔 Fineweb-edu-chinese, Fineweb-edu-chinese-v2, 지식 중심 훈련을 위한 합성, 교과서 스타일 데이터를 제공하는 Cosmopedia-chinese, 그리고 스타일리쉬하고 다양한 채팅 형식 데이터에 중점을 둔 Smoltalk-chinese이 포함되어 있습니다. OpenCSG 중국어 말뭉치는 고품질 텍스트, 다양한 도메인을 아우르는 커버리지, 확장 가능하고 재현 가능한 데이터 정리 프로세스로 특징 지어집니다. 또한, 우리는 C-Eval과 같은 작업에서 유의미한 성능 향상을 보여주는 작은 매개변수 모델에 대한 평가를 포함한 광범위한 실험적 분석을 수행하여, 중국어 LLMs의 훈련에 대한 이 말뭉치의 효과를 입증했습니다.
English
Large language models (LLMs) have demonstrated remarkable capabilities, but their success heavily relies on the quality of pretraining corpora. For Chinese LLMs, the scarcity of high-quality Chinese datasets presents a significant challenge, often limiting their performance. To address this issue, we propose the OpenCSG Chinese Corpus, a series of high-quality datasets specifically designed for LLM pretraining, post-training, and fine-tuning. This corpus includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets focus on filtered, high-quality content derived from diverse Chinese web sources; Cosmopedia-chinese provides synthetic, textbook-style data for knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its high-quality text, diverse coverage across domains, and scalable, reproducible data curation processes. Additionally, we conducted extensive experimental analyses, including evaluations on smaller parameter models, which demonstrated significant performance improvements in tasks such as C-Eval, showcasing the effectiveness of the corpus for training Chinese LLMs.

Summary

AI-Generated Summary

PDF82January 15, 2025