RedPajama : un jeu de données ouvert pour l'entraînement de grands modèles de langage
RedPajama: an Open Dataset for Training Large Language Models
November 19, 2024
Auteurs: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI
Résumé
Les grands modèles de langage deviennent de plus en plus une technologie fondamentale en intelligence artificielle, dans les sciences et dans la société dans son ensemble, cependant les stratégies optimales pour la composition et le filtrage des ensembles de données restent largement insaisissables. Bon nombre des modèles les plus performants manquent de transparence dans leur processus de curation des données et de développement du modèle, ce qui constitue un obstacle au développement de modèles de langage entièrement ouverts. Dans cet article, nous identifions trois défis principaux liés aux données qui doivent être relevés pour faire progresser les modèles de langage open source. Il s'agit de (1) la transparence dans le développement du modèle, y compris le processus de curation des données, (2) l'accès à de grandes quantités de données de haute qualité, et (3) la disponibilité d'artefacts et de métadonnées pour la curation et l'analyse des ensembles de données. Pour relever ces défis, nous publions RedPajama-V1, une reproduction ouverte de l'ensemble de données d'entraînement LLaMA. De plus, nous publions RedPajama-V2, un ensemble de données massif uniquement web composé de données textuelles brutes et non filtrées, accompagnées de signaux de qualité et de métadonnées. Ensemble, les ensembles de données RedPajama couvrent plus de 100 billions de jetons couvrant plusieurs domaines et avec leurs signaux de qualité facilitent le filtrage des données, visant à inspirer le développement de nombreux nouveaux ensembles de données. À ce jour, ces ensembles de données ont déjà été utilisés dans la formation de modèles de langage puissants utilisés en production, tels que Snowflake Arctic, XGen de Salesforce et OLMo de l'AI2. Pour fournir un aperçu de la qualité de RedPajama, nous présentons une série d'analyses et d'études d'ablation avec des modèles de langage à décodeur uniquement jusqu'à 1,6 milliard de paramètres. Nos résultats démontrent comment les signaux de qualité pour les données web peuvent être efficacement exploités pour curer des sous-ensembles de données de haute qualité, soulignant le potentiel de RedPajama pour faire progresser le développement de modèles de langage transparents et performants à grande échelle.
English
Large language models are increasingly becoming a cornerstone technology in
artificial intelligence, the sciences, and society as a whole, yet the optimal
strategies for dataset composition and filtering remain largely elusive. Many
of the top-performing models lack transparency in their dataset curation and
model development processes, posing an obstacle to the development of fully
open language models. In this paper, we identify three core data-related
challenges that must be addressed to advance open-source language models. These
include (1) transparency in model development, including the data curation
process, (2) access to large quantities of high-quality data, and (3)
availability of artifacts and metadata for dataset curation and analysis. To
address these challenges, we release RedPajama-V1, an open reproduction of the
LLaMA training dataset. In addition, we release RedPajama-V2, a massive
web-only dataset consisting of raw, unfiltered text data together with quality
signals and metadata. Together, the RedPajama datasets comprise over 100
trillion tokens spanning multiple domains and with their quality signals
facilitate the filtering of data, aiming to inspire the development of numerous
new datasets. To date, these datasets have already been used in the training of
strong language models used in production, such as Snowflake Arctic,
Salesforce's XGen and AI2's OLMo. To provide insight into the quality of
RedPajama, we present a series of analyses and ablation studies with
decoder-only language models with up to 1.6B parameters. Our findings
demonstrate how quality signals for web data can be effectively leveraged to
curate high-quality subsets of the dataset, underscoring the potential of
RedPajama to advance the development of transparent and high-performing
language models at scale.Summary
AI-Generated Summary