CCI3.0-HQ: een grootschalige Chinese dataset van hoge kwaliteit, ontworpen voor het vooraf trainen van grote taalmodellen.

CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

October 24, 2024
Auteurs: Liangdong Wang, Bo-Wen Zhang, Chengwei Wu, Hanyu Zhao, Xiaofeng Shi, Shuhao Gu, Jijie Li, Quanyue Ma, TengFei Pan, Guang Liu
cs.AI

Samenvatting

Wij presenteren CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), een hoogwaardige subset van 500 GB van de Chinese Corpora Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), ontwikkeld met behulp van een nieuw tweefasen hybride filteringsproces dat de gegevenskwaliteit aanzienlijk verbetert. Om de effectiviteit ervan te evalueren, hebben we een model met 0.5 miljard parameters vanaf nul getraind op 100 miljard tokens over verschillende datasets, waarbij we superieure prestaties behaalden op 10 benchmarks in een zero-shot setting in vergelijking met CCI3.0, SkyPile en WanjuanV1. Het filteringsproces van hoge kwaliteit destilleert effectief de mogelijkheden van het Qwen2-72B-instructiemodel in een compact 0.5B-model, met optimale F1-scores voor classificatie van Chinese webgegevens. Wij geloven dat dit open-access dataset zal bijdragen aan een breder toegang tot hoogwaardige taalmodellen.
English
We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.

Summary

AI-Generated Summary

PDF83November 16, 2024