MAGA: 대규모 장르-관객 재구성을 위한 사전 훈련 말뭉치 확장
MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion
February 6, 2025
저자: Xintong Hao, Ke Shen, Chenggang Li
cs.AI
초록
대규모 언어 모델의 놀라운 능력에도 불구하고, 그들의 계속되는 확장은 중요한 도전에 직면하고 있습니다: 고품질 사전 훈련 데이터의 부족. 모델 구조가 계속 발전하는 반면, 자연어 데이터는 확장하기 어려워합니다. 이 병목 현상을 극복하기 위해 우리는 기존 말뭉치에서 다양하고 맥락이 풍부한 사전 훈련 데이터를 체계적으로 합성하는 MAssive Genre-Audience~(MAGA) 재정렬 방법을 제안합니다. 본 연구는 세 가지 주요 기여를 합니다: (1) 우리는 가벼우면서 확장 가능한 사전 훈련 말뭉치 확장 방법인 MAGA 재정렬 방법을 제안하고, 770B 토큰의 MAGACorpus를 구축합니다. (2) 우리는 다양한 데이터 예산 확장 전략으로 MAGACorpus를 평가하여, 다양한 모델 크기(134M-13B)에서 일관된 개선을 보여주며, 차세대 대규모 합성 사전 훈련 언어 모델의 필요성을 확립합니다. (3) 포괄적인 분석을 통해 우리는 합성 훈련 붕괴에 대한 프롬프트 엔지니어링의 영향을 조사하고, 검증 손실을 사용한 기존 붕괴 탐지 메트릭의 한계를 밝혀냅니다. 우리의 연구는 MAGA가 품질을 유지하면서 훈련 데이터셋을 상당히 확장할 수 있으며, 데이터 제한을 넘어 모델을 확장하는 신뢰할 수 있는 경로를 제공합니다.
English
Despite the remarkable capabilities of large language models across various
tasks, their continued scaling faces a critical challenge: the scarcity of
high-quality pretraining data. While model architectures continue to evolve,
the natural language data struggles to scale up. To tackle this bottleneck, we
propose MAssive Genre-Audience~(MAGA) reformulation
method, which systematic synthesizes diverse, contextually-rich pretraining
data from existing corpus. This work makes three main contributions: (1) We
propose MAGA reformulation method, a lightweight and scalable approach for
pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We
evaluate MAGACorpus with different data budget scaling strategies,
demonstrating consistent improvements across various model sizes (134M-13B),
establishing the necessity for next-generation large-scale synthetic
pretraining language models. (3) Through comprehensive analysis, we investigate
prompt engineering's impact on synthetic training collapse and reveal
limitations in conventional collapse detection metrics using validation losses.
Our work shows that MAGA can substantially expand training datasets while
maintaining quality, offering a reliably pathway for scaling models beyond data
limitations.Summary
AI-Generated Summary