OpenCSG中国語コーパス:LLMトレーニングのための一連の高品質な中国語データセット
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
January 14, 2025
著者: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI
要旨
大規模言語モデル(LLMs)は驚異的な能力を示していますが、その成功は事前学習コーパスの品質に大きく依存しています。中国語のLLMsにおいては、高品質な中国語データセットの不足がしばしばパフォーマンスを制限する重要な課題となっています。この問題に対処するため、LLMの事前学習、事後学習、微調整に特化した一連の高品質データセットであるOpenCSG Chinese Corpusを提案します。このコーパスには、Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese、Smoltalk-chineseが含まれており、それぞれ異なる特性を持っています。Fineweb-eduデータセットは、多様な中国のウェブソースから派生したフィルタリングされた高品質コンテンツに焦点を当てています。Cosmopedia-chineseは、知識集約型トレーニング用の合成的な教科書スタイルのデータを提供し、Smoltalk-chineseは、スタイル豊かで多様なチャット形式のデータに重点を置いています。OpenCSG Chinese Corpusは、その高品質なテキスト、領域全体にわたる多様なカバレッジ、スケーラブルで再現可能なデータキュレーションプロセスを特徴としています。さらに、C-Evalなどのタスクにおいて有意なパフォーマンス向上を示す小規模パラメータモデルの評価を含む幅広い実験的分析を実施し、中国語LLMsのトレーニングにおけるこのコーパスの効果を示しました。
English
Large language models (LLMs) have demonstrated remarkable capabilities, but
their success heavily relies on the quality of pretraining corpora. For Chinese
LLMs, the scarcity of high-quality Chinese datasets presents a significant
challenge, often limiting their performance. To address this issue, we propose
the OpenCSG Chinese Corpus, a series of high-quality datasets specifically
designed for LLM pretraining, post-training, and fine-tuning. This corpus
includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and
Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets
focus on filtered, high-quality content derived from diverse Chinese web
sources; Cosmopedia-chinese provides synthetic, textbook-style data for
knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and
diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its
high-quality text, diverse coverage across domains, and scalable, reproducible
data curation processes. Additionally, we conducted extensive experimental
analyses, including evaluations on smaller parameter models, which demonstrated
significant performance improvements in tasks such as C-Eval, showcasing the
effectiveness of the corpus for training Chinese LLMs.Summary
AI-Generated Summary