Uno sguardo sobrio sui progressi nel ragionamento dei modelli linguistici: insidie e percorsi verso la riproducibilità
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
April 9, 2025
Autori: Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge
cs.AI
Abstract
Il ragionamento è emerso come la prossima grande frontiera per i modelli linguistici (LM), con rapidi progressi provenienti sia dai laboratori accademici che industriali. Tuttavia, questo progresso spesso supera il rigore metodologico, con molte valutazioni che si basano su pratiche di benchmarking che mancano di trasparenza, robustezza o fondamento statistico. In questo lavoro, conduciamo uno studio empirico completo e scopriamo che gli attuali benchmark per il ragionamento matematico sono altamente sensibili a scelte di implementazione sottili, inclusi i parametri di decodifica, i semi casuali, la formattazione dei prompt e persino le configurazioni hardware e software. I miglioramenti delle prestazioni riportati negli studi recenti spesso dipendono da confronti poco chiari o da fonti di varianza non riportate. Per affrontare questi problemi, proponiamo un framework di valutazione standardizzato con pratiche migliori e standard di reporting chiaramente definiti. Utilizzando questo framework, rivalutiamo i metodi recenti e scopriamo che gli approcci di apprendimento per rinforzo (RL) producono solo miglioramenti modesti, ben al di sotto delle affermazioni precedenti, e sono inclini all'overfitting, specialmente su benchmark su piccola scala come AIME24. Al contrario, i metodi di fine-tuning supervisionato (SFT) mostrano una generalizzazione costantemente più forte. Per favorire la riproducibilità, rilasciamo tutto il codice, i prompt e gli output del modello per i benchmark di ragionamento, stabilendo basi più rigorose per i lavori futuri.
English
Reasoning has emerged as the next major frontier for language models (LMs),
with rapid advances from both academic and industrial labs. However, this
progress often outpaces methodological rigor, with many evaluations relying on
benchmarking practices that lack transparency, robustness, or statistical
grounding. In this work, we conduct a comprehensive empirical study and find
that current mathematical reasoning benchmarks are highly sensitive to subtle
implementation choices - including decoding parameters, random seeds, prompt
formatting, and even hardware and software-framework configurations.
Performance gains reported in recent studies frequently hinge on unclear
comparisons or unreported sources of variance. To address these issues, we
propose a standardized evaluation framework with clearly defined best practices
and reporting standards. Using this framework, we reassess recent methods and
find that reinforcement learning (RL) approaches yield only modest improvements
- far below prior claims - and are prone to overfitting, especially on
small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT)
methods show consistently stronger generalization. To foster reproducibility,
we release all code, prompts, and model outputs, for reasoning benchmarks,
establishing more rigorous foundations for future work.Summary
AI-Generated Summary