GlotCC: 소수 언어를 위한 오픈 브로드 커버리지 CommonCrawl 코퍼스 및 파이프라인

GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages

October 31, 2024
저자: Amir Hossein Kargaran, François Yvon, Hinrich Schütze
cs.AI

초록

대량의 텍스트 말뭉치의 필요성은 사전 훈련된 언어 모델의 등장과 특히 이러한 모델에 대한 스케일링 법칙의 발견으로 증가했습니다. 대부분의 사용 가능한 말뭉치는 대규모 주요 커뮤니티를 가진 언어에 대해서만 충분한 데이터를 갖고 있습니다. 그러나 (i) 다양한 소수 언어를 커버하는 코퍼스가 없으며, (ii) 오픈 소스 재현 가능한 파이프라인에 의해 생성되며, (iii) 잡음으로부터 엄격히 정리되어 신뢰할 수 있는 코퍼스가 없습니다. 저희는 CommonCrawl에서 파생된 2TB 일반 도메인 코퍼스인 GlotCC를 제시합니다. GlotCC는 1000여 개 이상의 언어를 커버하며, 깨끗하고 문서 수준의 코퍼스입니다. GlotCC 및 해당 코퍼스를 생성하는 데 사용된 시스템 - 파이프라인, 언어 식별 모델 및 필터를 연구 커뮤니티에 제공합니다. 코퍼스 v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, 파이프라인 v. 3.0 https://github.com/cisnlp/GlotCC.
English
The need for large text corpora has increased with the advent of pretrained language models and, in particular, the discovery of scaling laws for these models. Most available corpora have sufficient data only for languages with large dominant communities. However, there is no corpus available that (i) covers a wide range of minority languages; (ii) is generated by an open-source reproducible pipeline; and (iii) is rigorously cleaned from noise, making it trustworthy to use. We present GlotCC, a clean, document-level, 2TB general domain corpus derived from CommonCrawl, covering more than 1000 languages. We make GlotCC and the system used to generate it - including the pipeline, language identification model, and filters - available to the research community. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.

Summary

AI-Generated Summary

PDF32November 13, 2024