ChatPaper.aiChatPaper

SmolTulu: 배치 크기 대비 높은 학습률은 SLMs에서 더 나은 추론을 이끌어 낼 수 있습니다.

SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

December 11, 2024
저자: Sultan Alrashed
cs.AI

초록

본 보고서에서 언급된 SmolTulu-DPO-1130으로 참조되는 SmolTulu-1.7b-Instruct를 소개합니다. 이는 AllenAI의 Tulu 3 사후 훈련 파이프라인을 적용하여 Huggingface의 SmolLM2-1.7B 기본 모델을 향상시킨 인스트럭션 튜닝 언어 모델입니다. 135백만 개의 매개변수 모델을 사용한 포괄적인 경험적 분석을 통해, 학습률과 배치 크기 사이의 관계가 과업에 따라 모델 성능에 중대한 영향을 미친다는 것을 입증합니다. 우리의 연구 결과는 명확한 구분을 보여줍니다. ARC 및 GSM8K와 같은 추론 과업은 더 높은 학습률 대 배치 크기 비율에서 이익을 얻는 반면, HellaSwag 및 IFEval과 같은 패턴 인식 과업은 더 낮은 비율에서 최적의 성능을 보입니다. 이러한 통찰력은 SmolTulu의 개발에 영향을 주었으며, 이 모델은 지시 따르기에서 67.7%의 성적을 달성하여 2B 미만의 매개변수 모델 중 최고 수준의 성능을 제공합니다. 또한, GSM8K에서 51.6%의 수학적 추론 성적을 기록하여 (Delta3.4%) ARC에서 57.1%의 성적을 달성하는 대안 버전을 제공합니다 (Delta5.4%). 우리는 모델, 훈련 레시피 및 제거 연구를 공개하여 효율적인 모델 정렬에 대한 추가 연구를 촉진하며, 최적화 역학의 신중한 적응이 작고 큰 언어 모델 간의 능력 차이를 줄이는 데 도움이 될 수 있다는 것을 입증합니다.
English
We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K (Delta3.4%), with an alternate version achieving scoring 57.1% on ARC (Delta5.4%). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.
PDF42December 16, 2024