ChatPaper.aiChatPaper

LEMMA: Lernen aus Fehlern für mathematische Fortschritte in LLMs

LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

March 21, 2025
Autoren: Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten beim Lösen mathematischer Probleme gezeigt. Bisherige Ansätze konzentrieren sich jedoch hauptsächlich darauf, die Qualität korrekter Trainingsdaten zu verbessern, z. B. durch die Destillation hochwertiger korrekter Lösungen aus fortgeschrittenen Modellen, und vernachlässigen dabei den Wert, der in Fehlerdaten enthalten ist, was möglicherweise die reflektierende Fähigkeit des Modells beeinträchtigt. Obwohl einige Studien versuchen, Fehlerdaten zu nutzen, beinhalten diese oft komplexe Mechanismen, wie z. B. Monte-Carlo-Baumsuche (MCTS), um Fehlerknoten zu erkunden. In dieser Arbeit schlagen wir vor, die Fähigkeit von LLMs zur Problemlösung durch das Lernen aus Fehlern für mathematische Fortschritte (LEMMA) zu verbessern. LEMMA konstruiert Daten, die aus einer falschen Lösung mit einem fehlerhaften Schritt und einer Reflexionsverbindung zu einer korrekten Lösung für das Feinabstimmen bestehen. Insbesondere analysieren wir systematisch die vom Modell generierten Fehlertypen und führen eine fehlertypbasierte Fehlerverstärkungsmethode ein, um vielfältige und repräsentative Fehler zu sammeln. Korrekte Lösungen stammen entweder aus der Korrektur der Fehler oder aus einer Neuerstellung. Durch eine modellbewusste sanfte Reflexionsverbindung wird die fehlerhafte Lösung in die korrekte überführt. Durch das Feinabstimmen auf dem konstruierten Datensatz ist das Modell in der Lage, Fehler autonom während des Generierungsprozesses zu korrigieren, ohne auf externe Kritikmodelle angewiesen zu sein. Experimentelle Ergebnisse zeigen, dass LEMMA signifikante Leistungsverbesserungen gegenüber anderen starken Baselines erzielt.
English
Large language models (LLMs) have demonstrated remarkable reasoning capability in solving mathematical problems. However, existing approaches primarily focus on improving the quality of correct training data, e.g., distilling high-quality correct solutions from advanced models, neglecting the value contained in error data, potentially hindering the model's reflective ability. Though some studies attempt to leverage error data, they often involve complex mechanisms, such as Monte Carlo Tree Search (MCTS) to explore error nodes. In this work, we propose to enhance LLMs' reasoning ability by Learning from Errors for Mathematical Advancement (LEMMA). LEMMA constructs data consisting of an incorrect solution with an erroneous step and a reflection connection to a correct solution for fine-tuning. Specifically, we systematically analyze the model-generated error types and introduce an error-type grounded mistake augmentation method to collect diverse and representative errors. Correct solutions are either from fixing the errors or generating a fresh start. Through a model-aware smooth reflection connection, the erroneous solution is transferred to the correct one. By fine-tuning on the constructed dataset, the model is able to self-correct errors autonomously within the generation process without relying on external critique models. Experimental results demonstrate that LEMMA achieves significant performance improvements over other strong baselines.

Summary

AI-Generated Summary

PDF132March 25, 2025