Stap-KTO: Optimaliseren van Wiskundig Redeneren door Stapsgewijze Binaire Feedback

Samenvatting

Grote taalmodellen (LLM's) hebben onlangs opmerkelijk succes aangetoond in wiskundig redeneren. Ondanks vooruitgang in methoden zoals keten-van-gedachten prompting en zelfconsistentie sampling, richten deze vooruitgangen zich vaak op uiteindelijke correctheid zonder te waarborgen dat het onderliggende redeneerproces coherent en betrouwbaar is. Dit artikel introduceert Stap-KTO, een trainingskader dat procesniveau- en uitkomstniveau binair feedback combineert om LLM's te begeleiden naar meer betrouwbare redeneertrajecten. Door binaire evaluaties te geven voor zowel de tussenliggende redeneerstappen als het uiteindelijke antwoord, moedigt Stap-KTO het model aan om zich te houden aan logische voortgangen in plaats van te vertrouwen op oppervlakkige shortcuts. Onze experimenten op uitdagende wiskundige benchmarks tonen aan dat Stap-KTO aanzienlijk zowel de nauwkeurigheid van het uiteindelijke antwoord als de kwaliteit van de tussenliggende redeneerstappen verbetert. Bijvoorbeeld, op de MATH-500 dataset behaalt Stap-KTO een opmerkelijke verbetering in Pass@1 nauwkeurigheid ten opzichte van sterke baselines. Deze resultaten benadrukken de belofte van het integreren van stapsgewijze procesfeedback in LLM-training, waarmee de weg wordt vrijgemaakt naar meer interpreteerbare en betrouwbare redeneervaardigheden.

English

Large language models (LLMs) have recently demonstrated remarkable success in mathematical reasoning. Despite progress in methods like chain-of-thought prompting and self-consistency sampling, these advances often focus on final correctness without ensuring that the underlying reasoning process is coherent and reliable. This paper introduces Step-KTO, a training framework that combines process-level and outcome-level binary feedback to guide LLMs toward more trustworthy reasoning trajectories. By providing binary evaluations for both the intermediate reasoning steps and the final answer, Step-KTO encourages the model to adhere to logical progressions rather than relying on superficial shortcuts. Our experiments on challenging mathematical benchmarks show that Step-KTO significantly improves both final answer accuracy and the quality of intermediate reasoning steps. For example, on the MATH-500 dataset, Step-KTO achieves a notable improvement in Pass@1 accuracy over strong baselines. These results highlight the promise of integrating stepwise process feedback into LLM training, paving the way toward more interpretable and dependable reasoning capabilities.

Stap-KTO: Optimaliseren van Wiskundig Redeneren door Stapsgewijze Binaire Feedback

Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

Samenvatting

Summary

Support