Xmodel-2 テクニカルレポート

Xmodel-2 Technical Report

December 27, 2024
著者: Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling
cs.AI

要旨

Xmodel-2は、推論タスクに特化した12億パラメータの大規模言語モデルです。そのアーキテクチャにより、異なるモデルスケールが統一された一連のハイパーパラメータを共有できるため、小さなモデルでの幅広い実験や最適な構成の大きなモデルへのシームレスな転送が可能となります。トレーニング効率と安定性を最大化するため、Xmodel-2はMiniCPMからのWSD学習率スケジューラを使用しています。多様なソースからの1.5兆トークンで事前学習されたXmodel-2は、複雑な推論およびエージェントベースのタスクで最先端のパフォーマンスを達成し、低いトレーニングコストを維持しています。これらの結果は、効率的なモデル設計とトレーニング戦略が推論能力の向上にどれだけの潜在能力を秘めているかを示しています。モデルのチェックポイントとコードはGitHubで一般に公開されています:https://github.com/XiaoduoAILab/Xmodel-2
English
Xmodel-2 is a 1.2-billion-parameter large language model designed specifically for reasoning tasks. Its architecture enables different model scales to share a unified set of hyperparameters, allowing for extensive experimentation on smaller models and seamless transfer of optimal configurations to larger models. To maximize training efficiency and stability, Xmodel-2 employs the WSD learning rate scheduler from MiniCPM. Pretrained on 1.5 trillion tokens from diverse sources, Xmodel-2 achieves state-of-the-art performance in complex reasoning and agent-based tasks, while maintaining low training costs. These results highlight the potential of efficient model design and training strategies in advancing reasoning capabilities. Model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/Xmodel-2

Summary

AI-Generated Summary

PDF254January 2, 2025