Корпус китайского языка OpenCSG: серия высококачественных китайских наборов данных для обучения LLM.

OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

January 14, 2025
Авторы: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI

Аннотация

Большие языковые модели (LLM) продемонстрировали выдающиеся возможности, однако их успех в значительной степени зависит от качества корпусов предварительного обучения. Для китайских LLM недостаток высококачественных китайских наборов данных представляет существенное препятствие, часто ограничивая их производительность. Для решения этой проблемы мы предлагаем Корпус китайского языка OpenCSG, серию высококачественных наборов данных, специально разработанных для предварительного обучения, последующего обучения и настройки LLM. Этот корпус включает в себя Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese и Smoltalk-chinese, каждый из которых обладает уникальными характеристиками: наборы данных Fineweb-edu фокусируются на отфильтрованном, высококачественном контенте, полученном из разнообразных источников китайского веба; Cosmopedia-chinese предоставляет синтетические данные в стиле учебников для интенсивного обучения на основе знаний; а Smoltalk-chinese акцентирует внимание на стилистически разнообразных данных в формате чата. Корпус китайского языка OpenCSG характеризуется высококачественным текстом, разнообразным охватом областей и масштабируемыми, воспроизводимыми процессами курирования данных. Кроме того, мы провели обширные экспериментальные анализы, включая оценки на моделях с меньшим количеством параметров, которые продемонстрировали значительное улучшение производительности в задачах, таких как C-Eval, демонстрируя эффективность корпуса для обучения китайских LLM.
English
Large language models (LLMs) have demonstrated remarkable capabilities, but their success heavily relies on the quality of pretraining corpora. For Chinese LLMs, the scarcity of high-quality Chinese datasets presents a significant challenge, often limiting their performance. To address this issue, we propose the OpenCSG Chinese Corpus, a series of high-quality datasets specifically designed for LLM pretraining, post-training, and fine-tuning. This corpus includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets focus on filtered, high-quality content derived from diverse Chinese web sources; Cosmopedia-chinese provides synthetic, textbook-style data for knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its high-quality text, diverse coverage across domains, and scalable, reproducible data curation processes. Additionally, we conducted extensive experimental analyses, including evaluations on smaller parameter models, which demonstrated significant performance improvements in tasks such as C-Eval, showcasing the effectiveness of the corpus for training Chinese LLMs.

Summary

AI-Generated Summary

PDF72January 15, 2025