Xmodel-2 기술 보고서
Xmodel-2 Technical Report
December 27, 2024
저자: Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling
cs.AI
초록
Xmodel-2는 추론 작업을 위해 특별히 설계된 12억 개의 매개변수를 가진 대형 언어 모델입니다. 해당 아키텍처는 다양한 모델 규모가 통합된 하이퍼파라미터 세트를 공유할 수 있도록 하여, 작은 모델에서의 광범위한 실험과 최적 구성의 대형 모델로의 원활한 전이를 가능케 합니다. 훈련 효율성과 안정성을 극대화하기 위해 Xmodel-2는 MiniCPM의 WSD 학습률 스케줄러를 사용합니다. 다양한 소스로부터 1,500조 토큰으로 사전 훈련된 Xmodel-2는 복잡한 추론 및 에이전트 기반 작업에서 최첨단 성능을 달성하면서 훈련 비용을 낮추었습니다. 이러한 결과는 효율적인 모델 설계와 훈련 전략이 추론 능력을 발전시키는 데 있어 가지는 잠재력을 강조합니다. 모델 체크포인트와 코드는 GitHub(https://github.com/XiaoduoAILab/Xmodel-2)에서 공개되어 있습니다.
English
Xmodel-2 is a 1.2-billion-parameter large language model designed
specifically for reasoning tasks. Its architecture enables different model
scales to share a unified set of hyperparameters, allowing for extensive
experimentation on smaller models and seamless transfer of optimal
configurations to larger models. To maximize training efficiency and stability,
Xmodel-2 employs the WSD learning rate scheduler from MiniCPM. Pretrained on
1.5 trillion tokens from diverse sources, Xmodel-2 achieves state-of-the-art
performance in complex reasoning and agent-based tasks, while maintaining low
training costs. These results highlight the potential of efficient model design
and training strategies in advancing reasoning capabilities. Model checkpoints
and code are publicly available on GitHub at
https://github.com/XiaoduoAILab/Xmodel-2Summary
AI-Generated Summary