SmolTulu: Rapporti più elevati tra tasso di apprendimento e dimensione del batch possono portare a un miglioramento della capacità di ragionamento nei SLM.

Abstract

Presentiamo SmolTulu-1.7b-Instruct, citato in questo rapporto come SmolTulu-DPO-1130, un modello linguistico ottimizzato per istruzioni che adatta il pipeline di post-training di Tulu 3 di AllenAI per potenziare il modello di base SmolLM2-1.7B di Huggingface. Attraverso un'analisi empirica approfondita utilizzando un modello con 135 milioni di parametri, dimostriamo che la relazione tra il tasso di apprendimento e la dimensione del batch influisce significativamente sulle prestazioni del modello in modo dipendente dal compito. Le nostre scoperte rivelano una chiara distinzione: i compiti di ragionamento come ARC e GSM8K beneficiano di rapporti più elevati tra tasso di apprendimento e dimensione del batch, mentre i compiti di riconoscimento di pattern come HellaSwag e IFEval mostrano prestazioni ottimali con rapporti più bassi. Queste intuizioni hanno guidato lo sviluppo di SmolTulu, che raggiunge prestazioni all'avanguardia tra i modelli con meno di 2 miliardi di parametri nel seguire le istruzioni, ottenendo il 67,7% su IFEval (Delta11%), e nel ragionamento matematico con il 51,6% su GSM8K (Delta3,4%), con una versione alternativa che raggiunge il 57,1% su ARC (Delta5,4%). Rilasciamo il nostro modello, le ricette di addestramento e gli studi di ablazione per agevolare ulteriori ricerche sull'allineamento efficiente del modello, dimostrando che un'adattamento attento della dinamica di ottimizzazione può contribuire a colmare il divario di capacità tra i modelli linguistici piccoli e grandi.

English

We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K (Delta3.4%), with an alternate version achieving scoring 57.1% on ARC (Delta5.4%). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.

SmolTulu: Rapporti più elevati tra tasso di apprendimento e dimensione del batch possono portare a un miglioramento della capacità di ragionamento nei SLM.

SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

Abstract

Support