RedPajama: 대형 언어 모델을 훈련하기 위한 오픈 데이터셋
RedPajama: an Open Dataset for Training Large Language Models
November 19, 2024
저자: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI
초록
대형 언어 모델은 인공지능, 과학 및 사회 전반에서 점차 중요한 기술로 자리 잡고 있지만, 데이터셋 구성 및 필터링에 대한 최적 전략은 여전히 대부분 불분명합니다. 성능이 우수한 모델 중 많은 모델은 데이터셋 선별 및 모델 개발 과정에서 투명성이 부족하여 완전히 공개적인 언어 모델의 개발에 장애를 일으킵니다. 본 논문에서는 오픈 소스 언어 모델의 발전을 위해 해결해야 할 세 가지 핵심 데이터 관련 도전 과제를 확인합니다. 이는 (1) 데이터 선별 과정을 포함한 모델 개발의 투명성, (2) 대규모 고품질 데이터에 대한 접근, (3) 데이터셋 선별 및 분석을 위한 자료 및 메타데이터의 가용성을 포함합니다. 이러한 도전 과제를 해결하기 위해 LLaMA 훈련 데이터셋의 오픈 재현인 RedPajama-V1을 공개합니다. 더불어, 원시, 필터링되지 않은 텍스트 데이터와 품질 신호 및 메타데이터로 이루어진 대규모 웹 전용 데이터셋인 RedPajama-V2를 공개합니다. RedPajama 데이터셋은 다양한 도메인에 걸쳐 100조 개 이상의 토큰을 포함하며, 품질 신호를 통해 데이터 필터링을 용이하게 하여 다양한 새로운 데이터셋의 개발을 촉진하는 것을 목표로 합니다. 현재까지 이러한 데이터셋은 이미 Snowflake Arctic, Salesforce의 XGen 및 AI2의 OLMo와 같이 제품에서 사용되는 강력한 언어 모델의 훈련에 사용되었습니다. RedPajama의 품질에 대한 통찰력을 제공하기 위해 1.6B 매개변수까지 가진 디코더 전용 언어 모델을 사용한 일련의 분석 및 제거 연구를 제시합니다. 우리의 연구 결과는 웹 데이터의 품질 신호가 데이터의 고품질 하위 집합을 선별하는 데 효과적으로 활용될 수 있음을 보여주며, RedPajama가 투명하고 고품질의 언어 모델의 대규모 발전을 촉진할 수 있는 잠재력을 강조합니다.
English
Large language models are increasingly becoming a cornerstone technology in
artificial intelligence, the sciences, and society as a whole, yet the optimal
strategies for dataset composition and filtering remain largely elusive. Many
of the top-performing models lack transparency in their dataset curation and
model development processes, posing an obstacle to the development of fully
open language models. In this paper, we identify three core data-related
challenges that must be addressed to advance open-source language models. These
include (1) transparency in model development, including the data curation
process, (2) access to large quantities of high-quality data, and (3)
availability of artifacts and metadata for dataset curation and analysis. To
address these challenges, we release RedPajama-V1, an open reproduction of the
LLaMA training dataset. In addition, we release RedPajama-V2, a massive
web-only dataset consisting of raw, unfiltered text data together with quality
signals and metadata. Together, the RedPajama datasets comprise over 100
trillion tokens spanning multiple domains and with their quality signals
facilitate the filtering of data, aiming to inspire the development of numerous
new datasets. To date, these datasets have already been used in the training of
strong language models used in production, such as Snowflake Arctic,
Salesforce's XGen and AI2's OLMo. To provide insight into the quality of
RedPajama, we present a series of analyses and ablation studies with
decoder-only language models with up to 1.6B parameters. Our findings
demonstrate how quality signals for web data can be effectively leveraged to
curate high-quality subsets of the dataset, underscoring the potential of
RedPajama to advance the development of transparent and high-performing
language models at scale.Summary
AI-Generated Summary