OpenCSG Chinese Corpus: Eine Reihe hochwertiger chinesischer Datensätze für das Training von LLM.
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
January 14, 2025
Autoren: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, aber ihr Erfolg hängt stark von der Qualität der vortrainierten Korpora ab. Für chinesische LLMs stellt die Knappheit hochwertiger chinesischer Datensätze eine bedeutende Herausforderung dar, die oft ihre Leistung einschränkt. Um dieses Problem anzugehen, schlagen wir das OpenCSG Chinese Corpus vor, eine Reihe von hochwertigen Datensätzen, die speziell für das Vortraining, die Nachschulung und Feinabstimmung von LLMs konzipiert sind. Dieser Korpus umfasst Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese und Smoltalk-chinese, von denen jeder unterschiedliche Merkmale aufweist: Die Fineweb-edu-Datensätze konzentrieren sich auf gefilterte, hochwertige Inhalte aus verschiedenen chinesischen Webquellen; Cosmopedia-chinese bietet synthetische, lehrbuchartige Daten für wissensintensives Training; und Smoltalk-chinese betont stilistische und vielfältige Chat-Format-Daten. Das OpenCSG Chinese Corpus zeichnet sich durch seinen hochwertigen Text, die vielfältige Abdeckung über verschiedene Bereiche hinweg und skalierbare, reproduzierbare Datenkurationsprozesse aus. Darüber hinaus führten wir umfangreiche experimentelle Analysen durch, einschließlich Bewertungen an kleineren Parametermodellen, die signifikante Leistungsverbesserungen in Aufgaben wie C-Eval zeigten und damit die Wirksamkeit des Korpus für das Training chinesischer LLMs verdeutlichten.
English
Large language models (LLMs) have demonstrated remarkable capabilities, but
their success heavily relies on the quality of pretraining corpora. For Chinese
LLMs, the scarcity of high-quality Chinese datasets presents a significant
challenge, often limiting their performance. To address this issue, we propose
the OpenCSG Chinese Corpus, a series of high-quality datasets specifically
designed for LLM pretraining, post-training, and fine-tuning. This corpus
includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and
Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets
focus on filtered, high-quality content derived from diverse Chinese web
sources; Cosmopedia-chinese provides synthetic, textbook-style data for
knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and
diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its
high-quality text, diverse coverage across domains, and scalable, reproducible
data curation processes. Additionally, we conducted extensive experimental
analyses, including evaluations on smaller parameter models, which demonstrated
significant performance improvements in tasks such as C-Eval, showcasing the
effectiveness of the corpus for training Chinese LLMs.Summary
AI-Generated Summary