LEMMA: Apprendere dagli Errori per il Progresso Matematico nei Modelli Linguistici di Grande Dimensione
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs
March 21, 2025
Autori: Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato una notevole capacità di ragionamento nella risoluzione di problemi matematici. Tuttavia, gli approcci esistenti si concentrano principalmente sul miglioramento della qualità dei dati di addestramento corretti, ad esempio distillando soluzioni corrette di alta qualità da modelli avanzati, trascurando il valore contenuto nei dati di errore, potenzialmente ostacolando la capacità riflessiva del modello. Sebbene alcuni studi tentino di sfruttare i dati di errore, spesso coinvolgono meccanismi complessi, come la ricerca ad albero Monte Carlo (MCTS) per esplorare i nodi di errore. In questo lavoro, proponiamo di migliorare la capacità di ragionamento degli LLM attraverso l'apprendimento dagli errori per il progresso matematico (LEMMA). LEMMA costruisce dati composti da una soluzione errata con un passaggio erroneo e una connessione riflessiva a una soluzione corretta per il fine-tuning. Nello specifico, analizziamo sistematicamente i tipi di errore generati dal modello e introduciamo un metodo di amplificazione degli errori basato sul tipo di errore per raccogliere errori diversificati e rappresentativi. Le soluzioni corrette derivano dalla correzione degli errori o dalla generazione di un nuovo inizio. Attraverso una connessione riflessiva fluida e consapevole del modello, la soluzione errata viene trasferita a quella corretta. Effettuando il fine-tuning sul dataset costruito, il modello è in grado di autocorreggere gli errori in modo autonomo durante il processo di generazione senza fare affidamento su modelli di critica esterni. I risultati sperimentali dimostrano che LEMMA ottiene miglioramenti significativi delle prestazioni rispetto ad altre solide baseline.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capability in solving mathematical problems. However, existing approaches
primarily focus on improving the quality of correct training data, e.g.,
distilling high-quality correct solutions from advanced models, neglecting the
value contained in error data, potentially hindering the model's reflective
ability. Though some studies attempt to leverage error data, they often involve
complex mechanisms, such as Monte Carlo Tree Search (MCTS) to explore error
nodes. In this work, we propose to enhance LLMs' reasoning ability by Learning
from Errors for Mathematical Advancement (LEMMA). LEMMA constructs data
consisting of an incorrect solution with an erroneous step and a reflection
connection to a correct solution for fine-tuning. Specifically, we
systematically analyze the model-generated error types and introduce an
error-type grounded mistake augmentation method to collect diverse and
representative errors. Correct solutions are either from fixing the errors or
generating a fresh start. Through a model-aware smooth reflection connection,
the erroneous solution is transferred to the correct one. By fine-tuning on the
constructed dataset, the model is able to self-correct errors autonomously
within the generation process without relying on external critique models.
Experimental results demonstrate that LEMMA achieves significant performance
improvements over other strong baselines.Summary
AI-Generated Summary