Corpus Chinês OpenCSG: Uma Série de Conjuntos de Dados em Chinês de Alta Qualidade para Treinamento de LLM
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
January 14, 2025
Autores: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis, mas seu sucesso depende fortemente da qualidade dos corpora de pré-treinamento. Para os LLMs chineses, a escassez de conjuntos de dados chineses de alta qualidade representa um desafio significativo, frequentemente limitando seu desempenho. Para lidar com essa questão, propomos o Corpus Chinês OpenCSG, uma série de conjuntos de dados de alta qualidade especificamente projetados para pré-treinamento, pós-treinamento e ajuste fino de LLMs. Este corpus inclui Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese e Smoltalk-chinese, cada um com características distintas: os conjuntos de dados Fineweb-edu focam em conteúdo filtrado e de alta qualidade derivado de diversas fontes da web chinesa; Cosmopedia-chinese fornece dados sintéticos no estilo de livros didáticos para treinamento intensivo em conhecimento; e Smoltalk-chinese enfatiza dados estilísticos e diversos em formato de bate-papo. O Corpus Chinês OpenCSG é caracterizado por seu texto de alta qualidade, cobertura diversificada em diferentes domínios e processos de curadoria de dados escaláveis e reproduzíveis. Além disso, realizamos extensas análises experimentais, incluindo avaliações em modelos com parâmetros menores, que demonstraram melhorias significativas de desempenho em tarefas como C-Eval, destacando a eficácia do corpus para treinar LLMs chineses.
English
Large language models (LLMs) have demonstrated remarkable capabilities, but
their success heavily relies on the quality of pretraining corpora. For Chinese
LLMs, the scarcity of high-quality Chinese datasets presents a significant
challenge, often limiting their performance. To address this issue, we propose
the OpenCSG Chinese Corpus, a series of high-quality datasets specifically
designed for LLM pretraining, post-training, and fine-tuning. This corpus
includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and
Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets
focus on filtered, high-quality content derived from diverse Chinese web
sources; Cosmopedia-chinese provides synthetic, textbook-style data for
knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and
diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its
high-quality text, diverse coverage across domains, and scalable, reproducible
data curation processes. Additionally, we conducted extensive experimental
analyses, including evaluations on smaller parameter models, which demonstrated
significant performance improvements in tasks such as C-Eval, showcasing the
effectiveness of the corpus for training Chinese LLMs.Summary
AI-Generated Summary