RedPajama: un dataset aperto per l'addestramento di grandi modelli linguistici
RedPajama: an Open Dataset for Training Large Language Models
November 19, 2024
Autori: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI
Abstract
I grandi modelli linguistici stanno diventando sempre più una tecnologia fondamentale nell'intelligenza artificiale, nelle scienze e nella società nel suo complesso, tuttavia le strategie ottimali per la composizione e il filtraggio dei dataset rimangono in gran parte sfuggenti. Molti dei modelli più performanti mancano di trasparenza nei processi di cura dei dataset e sviluppo del modello, creando un ostacolo allo sviluppo di modelli linguistici completamente aperti. In questo articolo, identifichiamo tre sfide principali legate ai dati che devono essere affrontate per far progredire i modelli linguistici open-source. Queste includono (1) trasparenza nello sviluppo del modello, compreso il processo di cura dei dati, (2) accesso a grandi quantità di dati di alta qualità e (3) disponibilità di artefatti e metadati per la cura e l'analisi dei dataset. Per affrontare queste sfide, rilasciamo RedPajama-V1, una riproduzione aperta del dataset di addestramento LLaMA. Inoltre, rilasciamo RedPajama-V2, un enorme dataset solo web composto da dati di testo grezzi e non filtrati insieme a segnali di qualità e metadati. Insieme, i dataset RedPajama comprendono oltre 100 trilioni di token che spaziano su più domini e i loro segnali di qualità facilitano il filtraggio dei dati, con l'obiettivo di ispirare lo sviluppo di numerosi nuovi dataset. Finora, questi dataset sono stati già utilizzati nell'addestramento di robusti modelli linguistici utilizzati in produzione, come Snowflake Arctic, XGen di Salesforce e OLMo di AI2. Per fornire un'analisi sulla qualità di RedPajama, presentiamo una serie di analisi e studi di ablazione con modelli linguistici basati solo sul decoder con fino a 1,6 miliardi di parametri. Le nostre conclusioni dimostrano come i segnali di qualità per i dati web possano essere efficacemente sfruttati per curare subset di dataset di alta qualità, sottolineando il potenziale di RedPajama nel far progredire lo sviluppo di modelli linguistici trasparenti e performanti su larga scala.
English
Large language models are increasingly becoming a cornerstone technology in
artificial intelligence, the sciences, and society as a whole, yet the optimal
strategies for dataset composition and filtering remain largely elusive. Many
of the top-performing models lack transparency in their dataset curation and
model development processes, posing an obstacle to the development of fully
open language models. In this paper, we identify three core data-related
challenges that must be addressed to advance open-source language models. These
include (1) transparency in model development, including the data curation
process, (2) access to large quantities of high-quality data, and (3)
availability of artifacts and metadata for dataset curation and analysis. To
address these challenges, we release RedPajama-V1, an open reproduction of the
LLaMA training dataset. In addition, we release RedPajama-V2, a massive
web-only dataset consisting of raw, unfiltered text data together with quality
signals and metadata. Together, the RedPajama datasets comprise over 100
trillion tokens spanning multiple domains and with their quality signals
facilitate the filtering of data, aiming to inspire the development of numerous
new datasets. To date, these datasets have already been used in the training of
strong language models used in production, such as Snowflake Arctic,
Salesforce's XGen and AI2's OLMo. To provide insight into the quality of
RedPajama, we present a series of analyses and ablation studies with
decoder-only language models with up to 1.6B parameters. Our findings
demonstrate how quality signals for web data can be effectively leveraged to
curate high-quality subsets of the dataset, underscoring the potential of
RedPajama to advance the development of transparent and high-performing
language models at scale.Summary
AI-Generated Summary