Relatório Técnico do Modelo-X2

Xmodel-2 Technical Report

December 27, 2024
Autores: Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling
cs.AI

Resumo

O Xmodel-2 é um modelo de linguagem grande com 1,2 bilhão de parâmetros, projetado especificamente para tarefas de raciocínio. Sua arquitetura permite que diferentes escalas de modelos compartilhem um conjunto unificado de hiperparâmetros, permitindo uma experimentação extensiva em modelos menores e a transferência contínua de configurações ótimas para modelos maiores. Para maximizar a eficiência e estabilidade do treinamento, o Xmodel-2 utiliza o programador de taxa de aprendizado WSD do MiniCPM. Pré-treinado em 1,5 trilhão de tokens de fontes diversas, o Xmodel-2 alcança um desempenho de ponta em tarefas de raciocínio complexas e baseadas em agentes, mantendo baixos custos de treinamento. Esses resultados destacam o potencial do design eficiente de modelos e estratégias de treinamento para avançar as capacidades de raciocínio. Os pontos de verificação do modelo e o código estão publicamente disponíveis no GitHub em https://github.com/XiaoduoAILab/Xmodel-2
English
Xmodel-2 is a 1.2-billion-parameter large language model designed specifically for reasoning tasks. Its architecture enables different model scales to share a unified set of hyperparameters, allowing for extensive experimentation on smaller models and seamless transfer of optimal configurations to larger models. To maximize training efficiency and stability, Xmodel-2 employs the WSD learning rate scheduler from MiniCPM. Pretrained on 1.5 trillion tokens from diverse sources, Xmodel-2 achieves state-of-the-art performance in complex reasoning and agent-based tasks, while maintaining low training costs. These results highlight the potential of efficient model design and training strategies in advancing reasoning capabilities. Model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/Xmodel-2

Summary

AI-Generated Summary

PDF254January 2, 2025