YuLan-Mini: Um Modelo de Linguagem de Fonte Aberta Eficiente em Dados
YuLan-Mini: An Open Data-efficient Language Model
December 23, 2024
Autores: Yiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen
cs.AI
Resumo
O treinamento eficaz de grandes modelos de linguagem (LLMs) tem sido desafiador devido às enormes demandas de recursos e à complexidade dos processos técnicos envolvidos. Este artigo apresenta um relatório técnico detalhado sobre YuLan-Mini, um modelo base altamente capaz com 2,42 bilhões de parâmetros que alcança um desempenho de primeira linha entre modelos de escala de parâmetros semelhante. Nossa abordagem de pré-treinamento concentra-se em aprimorar a eficácia do treinamento por meio de três contribuições técnicas-chave: um elaborado pipeline de dados que combina limpeza de dados com estratégias de programação de dados, um método robusto de otimização para mitigar a instabilidade do treinamento e uma abordagem eficaz de têmpera que incorpora seleção de dados direcionada e treinamento de contexto longo. Notavelmente, o YuLan-Mini, treinado em 1,08 trilhão de tokens, alcança um desempenho comparável a modelos líderes do setor que exigem significativamente mais dados. Para facilitar a reprodução, disponibilizamos todos os detalhes da composição dos dados para cada fase de treinamento. Os detalhes do projeto podem ser acessados no seguinte link: https://github.com/RUC-GSAI/YuLan-Mini.
English
Effective pre-training of large language models (LLMs) has been challenging
due to the immense resource demands and the complexity of the technical
processes involved. This paper presents a detailed technical report on
YuLan-Mini, a highly capable base model with 2.42B parameters that achieves
top-tier performance among models of similar parameter scale. Our pre-training
approach focuses on enhancing training efficacy through three key technical
contributions: an elaborate data pipeline combines data cleaning with data
schedule strategies, a robust optimization method to mitigate training
instability, and an effective annealing approach that incorporates targeted
data selection and long context training. Remarkably, YuLan-Mini, trained on
1.08T tokens, achieves performance comparable to industry-leading models that
require significantly more data. To facilitate reproduction, we release the
full details of the data composition for each training phase. Project details
can be accessed at the following link: https://github.com/RUC-GSAI/YuLan-Mini.Summary
AI-Generated Summary