Corpus Cinese OpenCSG: Una Serie di Set di Dati in Cinese di Alta Qualità per l'Addestramento di LLM
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
January 14, 2025
Autori: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli, ma il loro successo dipende fortemente dalla qualità dei corpora di preaddestramento. Per i LLM cinesi, la scarsità di dataset cinesi di alta qualità rappresenta una sfida significativa, spesso limitando le loro prestazioni. Per affrontare questo problema, proponiamo l'OpenCSG Chinese Corpus, una serie di dataset di alta qualità appositamente progettati per il preaddestramento, il post-addestramento e il raffinamento dei LLM. Questo corpus include Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese e Smoltalk-chinese, ciascuno con caratteristiche distinte: i dataset Fineweb-edu si concentrano su contenuti filtrati di alta qualità derivati da diverse fonti web cinesi; Cosmopedia-chinese fornisce dati sintetici in stile libro di testo per un addestramento intensivo alla conoscenza; e Smoltalk-chinese enfatizza dati stilistici e diversi in formato chat. L'OpenCSG Chinese Corpus è caratterizzato dal suo testo di alta qualità, dalla copertura diversificata tra i domini e dai processi di cura dei dati scalabili e riproducibili. Inoltre, abbiamo condotto ampie analisi sperimentali, inclusa valutazioni su modelli con parametri più piccoli, che hanno dimostrato significativi miglioramenti delle prestazioni in compiti come C-Eval, evidenziando l'efficacia del corpus per l'addestramento dei LLM cinesi.
English
Large language models (LLMs) have demonstrated remarkable capabilities, but
their success heavily relies on the quality of pretraining corpora. For Chinese
LLMs, the scarcity of high-quality Chinese datasets presents a significant
challenge, often limiting their performance. To address this issue, we propose
the OpenCSG Chinese Corpus, a series of high-quality datasets specifically
designed for LLM pretraining, post-training, and fine-tuning. This corpus
includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and
Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets
focus on filtered, high-quality content derived from diverse Chinese web
sources; Cosmopedia-chinese provides synthetic, textbook-style data for
knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and
diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its
high-quality text, diverse coverage across domains, and scalable, reproducible
data curation processes. Additionally, we conducted extensive experimental
analyses, including evaluations on smaller parameter models, which demonstrated
significant performance improvements in tasks such as C-Eval, showcasing the
effectiveness of the corpus for training Chinese LLMs.Summary
AI-Generated Summary