CCI3.0-HQ: Ein umfangreiches chinesisches Datenset von hoher Qualität, das für das Vor-Training großer Sprachmodelle konzipiert wurde.

Zusammenfassung

Wir präsentieren CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), ein hochwertiges 500 GB Subset des Chinese Corpora Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), das mithilfe eines neuartigen zweistufigen hybriden Filterungspipelines entwickelt wurde, die die Datenqualität signifikant verbessert. Zur Bewertung seiner Wirksamkeit haben wir ein 0,5 Mrd. Parameter Modell von Grund auf auf 100 Mrd. Tokens über verschiedene Datensätze trainiert und dabei eine überlegene Leistung in einem Zero-Shot-Setting auf 10 Benchmarks im Vergleich zu CCI3.0, SkyPile und WanjuanV1 erzielt. Der hochwertige Filterungsprozess destilliert effektiv die Fähigkeiten des Qwen2-72B-instruct Modells in ein kompaktes 0,5 Mrd. Modell, das optimale F1-Scores für die Klassifizierung chinesischer Webdaten erreicht. Wir sind der Überzeugung, dass dieser Open-Access-Datensatz den breiteren Zugang zu hochwertigen Sprachmodellen erleichtern wird.

English

We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.

CCI3.0-HQ: Ein umfangreiches chinesisches Datenset von hoher Qualität, das für das Vor-Training großer Sprachmodelle konzipiert wurde.

CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

Zusammenfassung

Summary

Support