RotePyjama: Ein offenes Datenset zur Schulung großer Sprachmodelle
RedPajama: an Open Dataset for Training Large Language Models
November 19, 2024
Autoren: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle werden zunehmend zu einer Schlüsseltechnologie in der künstlichen Intelligenz, den Wissenschaften und der Gesellschaft insgesamt, dennoch bleiben die optimalen Strategien für die Zusammensetzung und Filterung von Datensätzen weitgehend unklar. Viele der leistungsstärksten Modelle weisen undurchsichtige Vorgehensweisen bei der Datensatzkuratierung und Modellentwicklung auf, was ein Hindernis für die Entwicklung vollständig offener Sprachmodelle darstellt. In diesem Paper identifizieren wir drei zentrale datenbezogene Herausforderungen, die angegangen werden müssen, um Open-Source-Sprachmodelle voranzubringen. Diese umfassen (1) Transparenz bei der Modellentwicklung, einschließlich des Datensatzkuratierungsprozesses, (2) Zugang zu großen Mengen hochwertiger Daten und (3) Verfügbarkeit von Artefakten und Metadaten für die Datensatzkuratierung und -analyse. Um diesen Herausforderungen zu begegnen, veröffentlichen wir RedPajama-V1, eine offene Reproduktion des LLaMA-Trainingsdatensatzes. Darüber hinaus veröffentlichen wir RedPajama-V2, einen umfangreichen ausschließlich webbasierten Datensatz, bestehend aus rohen, ungefilterten Textdaten zusammen mit Qualitätsindikatoren und Metadaten. Zusammen umfassen die RedPajama-Datensätze über 100 Billionen Tokens, die verschiedene Bereiche abdecken, und mit ihren Qualitätsindikatoren erleichtern sie die Datenfilterung mit dem Ziel, die Entwicklung zahlreicher neuer Datensätze zu inspirieren. Diese Datensätze wurden bereits zur Schulung leistungsstarker Sprachmodelle verwendet, die in der Produktion eingesetzt werden, wie beispielsweise Snowflake Arctic, Salesforce's XGen und AI2's OLMo. Um Einblicke in die Qualität von RedPajama zu geben, präsentieren wir eine Reihe von Analysen und Ablationsstudien mit ausschließlich Decoder-Sprachmodellen mit bis zu 1,6 Milliarden Parametern. Unsere Ergebnisse zeigen, wie Qualitätsindikatoren für Webdaten effektiv genutzt werden können, um hochwertige Teilmengen des Datensatzes zu kuratieren, was das Potenzial von RedPajama unterstreicht, die Entwicklung transparenter und leistungsstarker Sprachmodelle im großen Maßstab voranzutreiben.
English
Large language models are increasingly becoming a cornerstone technology in
artificial intelligence, the sciences, and society as a whole, yet the optimal
strategies for dataset composition and filtering remain largely elusive. Many
of the top-performing models lack transparency in their dataset curation and
model development processes, posing an obstacle to the development of fully
open language models. In this paper, we identify three core data-related
challenges that must be addressed to advance open-source language models. These
include (1) transparency in model development, including the data curation
process, (2) access to large quantities of high-quality data, and (3)
availability of artifacts and metadata for dataset curation and analysis. To
address these challenges, we release RedPajama-V1, an open reproduction of the
LLaMA training dataset. In addition, we release RedPajama-V2, a massive
web-only dataset consisting of raw, unfiltered text data together with quality
signals and metadata. Together, the RedPajama datasets comprise over 100
trillion tokens spanning multiple domains and with their quality signals
facilitate the filtering of data, aiming to inspire the development of numerous
new datasets. To date, these datasets have already been used in the training of
strong language models used in production, such as Snowflake Arctic,
Salesforce's XGen and AI2's OLMo. To provide insight into the quality of
RedPajama, we present a series of analyses and ablation studies with
decoder-only language models with up to 1.6B parameters. Our findings
demonstrate how quality signals for web data can be effectively leveraged to
curate high-quality subsets of the dataset, underscoring the potential of
RedPajama to advance the development of transparent and high-performing
language models at scale.Summary
AI-Generated Summary