YuLan-Mini: Un Modello Linguistico Aperto con Efficienza nei Dati
YuLan-Mini: An Open Data-efficient Language Model
December 23, 2024
Autori: Yiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen
cs.AI
Abstract
Il pre-addestramento efficace di grandi modelli linguistici (LLM) è stato difficile a causa delle immense richieste di risorse e della complessità dei processi tecnici coinvolti. Questo articolo presenta un dettagliato rapporto tecnico su YuLan-Mini, un modello di base altamente capace con 2,42 miliardi di parametri che raggiunge prestazioni di alto livello tra i modelli della stessa scala di parametri. Il nostro approccio al pre-addestramento si concentra sull'aumento dell'efficacia dell'addestramento attraverso tre importanti contributi tecnici: un elaborato flusso di dati che combina la pulizia dei dati con strategie di pianificazione dei dati, un robusto metodo di ottimizzazione per mitigare l'instabilità dell'addestramento e un efficace approccio di raffreddamento che incorpora la selezione mirata dei dati e l'addestramento a lungo contesto. In modo notevole, YuLan-Mini, addestrato su 1,08 trilioni di token, raggiunge prestazioni paragonabili ai modelli leader del settore che richiedono significativamente più dati. Per facilitare la riproducibilità, rilasciamo tutti i dettagli della composizione dei dati per ciascuna fase di addestramento. I dettagli del progetto sono accessibili al seguente link: https://github.com/RUC-GSAI/YuLan-Mini.
English
Effective pre-training of large language models (LLMs) has been challenging
due to the immense resource demands and the complexity of the technical
processes involved. This paper presents a detailed technical report on
YuLan-Mini, a highly capable base model with 2.42B parameters that achieves
top-tier performance among models of similar parameter scale. Our pre-training
approach focuses on enhancing training efficacy through three key technical
contributions: an elaborate data pipeline combines data cleaning with data
schedule strategies, a robust optimization method to mitigate training
instability, and an effective annealing approach that incorporates targeted
data selection and long context training. Remarkably, YuLan-Mini, trained on
1.08T tokens, achieves performance comparable to industry-leading models that
require significantly more data. To facilitate reproduction, we release the
full details of the data composition for each training phase. Project details
can be accessed at the following link: https://github.com/RUC-GSAI/YuLan-Mini.Summary
AI-Generated Summary