RedPajama: een Open Dataset voor het Trainen van Grote Taalmodellen
RedPajama: an Open Dataset for Training Large Language Models
November 19, 2024
Auteurs: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI
Samenvatting
Grote taalmodellen worden steeds meer een hoeksteen-technologie in kunstmatige intelligentie, de wetenschappen en de samenleving als geheel, maar de optimale strategieën voor dataset samenstelling en filtering blijven grotendeels ongrijpbaar. Veel van de best presterende modellen missen transparantie in hun dataset samenstelling en model ontwikkelingsprocessen, wat een obstakel vormt voor de ontwikkeling van volledig open taalmodellen. In dit artikel identificeren we drie kernuitdagingen met betrekking tot gegevens die moeten worden aangepakt om open-source taalmodellen te bevorderen. Deze omvatten (1) transparantie in modelontwikkeling, inclusief het gegevenscuratieproces, (2) toegang tot grote hoeveelheden hoogwaardige gegevens, en (3) beschikbaarheid van artefacten en metadata voor gegevenscuratie en -analyse. Om deze uitdagingen aan te pakken, brengen we RedPajama-V1 uit, een open reproductie van het LLaMA-trainingsdataset. Daarnaast brengen we RedPajama-V2 uit, een enorme dataset die alleen op het web bestaat en bestaat uit ruwe, ongefilterde tekstdatabestanden samen met kwaliteitssignalen en metadata. Samen omvatten de RedPajama-datasets meer dan 100 biljoen tokens die meerdere domeinen bestrijken en met hun kwaliteitssignalen de filtering van gegevens vergemakkelijken, met als doel de ontwikkeling van talrijke nieuwe datasets te inspireren. Tot op heden zijn deze datasets al gebruikt bij de training van sterke taalmodellen die in productie worden gebruikt, zoals Snowflake Arctic, Salesforce's XGen en AI2's OLMo. Om inzicht te geven in de kwaliteit van RedPajama, presenteren we een reeks analyses en ablatiestudies met alleen-decoder taalmodellen met maximaal 1,6 miljard parameters. Onze bevindingen tonen aan hoe kwaliteitssignalen voor webgegevens effectief kunnen worden benut om hoogwaardige subsets van de dataset te cureren, waarbij het potentieel van RedPajama wordt benadrukt om de ontwikkeling van transparante en hoog presterende taalmodellen op grote schaal te bevorderen.
English
Large language models are increasingly becoming a cornerstone technology in
artificial intelligence, the sciences, and society as a whole, yet the optimal
strategies for dataset composition and filtering remain largely elusive. Many
of the top-performing models lack transparency in their dataset curation and
model development processes, posing an obstacle to the development of fully
open language models. In this paper, we identify three core data-related
challenges that must be addressed to advance open-source language models. These
include (1) transparency in model development, including the data curation
process, (2) access to large quantities of high-quality data, and (3)
availability of artifacts and metadata for dataset curation and analysis. To
address these challenges, we release RedPajama-V1, an open reproduction of the
LLaMA training dataset. In addition, we release RedPajama-V2, a massive
web-only dataset consisting of raw, unfiltered text data together with quality
signals and metadata. Together, the RedPajama datasets comprise over 100
trillion tokens spanning multiple domains and with their quality signals
facilitate the filtering of data, aiming to inspire the development of numerous
new datasets. To date, these datasets have already been used in the training of
strong language models used in production, such as Snowflake Arctic,
Salesforce's XGen and AI2's OLMo. To provide insight into the quality of
RedPajama, we present a series of analyses and ablation studies with
decoder-only language models with up to 1.6B parameters. Our findings
demonstrate how quality signals for web data can be effectively leveraged to
curate high-quality subsets of the dataset, underscoring the potential of
RedPajama to advance the development of transparent and high-performing
language models at scale.Summary
AI-Generated Summary