CCI3.0-HQ: Ein umfangreiches chinesisches Datenset von hoher Qualität, das für das Vor-Training großer Sprachmodelle konzipiert wurde.

CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

October 24, 2024
Autoren: Liangdong Wang, Bo-Wen Zhang, Chengwei Wu, Hanyu Zhao, Xiaofeng Shi, Shuhao Gu, Jijie Li, Quanyue Ma, TengFei Pan, Guang Liu
cs.AI

Zusammenfassung

Wir präsentieren CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), ein hochwertiges 500 GB Subset des Chinese Corpora Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), das mithilfe eines neuartigen zweistufigen hybriden Filterungspipelines entwickelt wurde, die die Datenqualität signifikant verbessert. Zur Bewertung seiner Wirksamkeit haben wir ein 0,5 Mrd. Parameter Modell von Grund auf auf 100 Mrd. Tokens über verschiedene Datensätze trainiert und dabei eine überlegene Leistung in einem Zero-Shot-Setting auf 10 Benchmarks im Vergleich zu CCI3.0, SkyPile und WanjuanV1 erzielt. Der hochwertige Filterungsprozess destilliert effektiv die Fähigkeiten des Qwen2-72B-instruct Modells in ein kompaktes 0,5 Mrd. Modell, das optimale F1-Scores für die Klassifizierung chinesischer Webdaten erreicht. Wir sind der Überzeugung, dass dieser Open-Access-Datensatz den breiteren Zugang zu hochwertigen Sprachmodellen erleichtern wird.
English
We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.

Summary

AI-Generated Summary

PDF83November 16, 2024