Stap-KTO: Optimaliseren van Wiskundig Redeneren door Stapsgewijze Binaire Feedback
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback
January 18, 2025
Auteurs: Yen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben onlangs opmerkelijk succes aangetoond in wiskundig redeneren. Ondanks vooruitgang in methoden zoals keten-van-gedachten prompting en zelfconsistentie sampling, richten deze vooruitgangen zich vaak op uiteindelijke correctheid zonder te waarborgen dat het onderliggende redeneerproces coherent en betrouwbaar is. Dit artikel introduceert Stap-KTO, een trainingskader dat procesniveau- en uitkomstniveau binair feedback combineert om LLM's te begeleiden naar meer betrouwbare redeneertrajecten. Door binaire evaluaties te geven voor zowel de tussenliggende redeneerstappen als het uiteindelijke antwoord, moedigt Stap-KTO het model aan om zich te houden aan logische voortgangen in plaats van te vertrouwen op oppervlakkige shortcuts. Onze experimenten op uitdagende wiskundige benchmarks tonen aan dat Stap-KTO aanzienlijk zowel de nauwkeurigheid van het uiteindelijke antwoord als de kwaliteit van de tussenliggende redeneerstappen verbetert. Bijvoorbeeld, op de MATH-500 dataset behaalt Stap-KTO een opmerkelijke verbetering in Pass@1 nauwkeurigheid ten opzichte van sterke baselines. Deze resultaten benadrukken de belofte van het integreren van stapsgewijze procesfeedback in LLM-training, waarmee de weg wordt vrijgemaakt naar meer interpreteerbare en betrouwbare redeneervaardigheden.
English
Large language models (LLMs) have recently demonstrated remarkable success in
mathematical reasoning. Despite progress in methods like chain-of-thought
prompting and self-consistency sampling, these advances often focus on final
correctness without ensuring that the underlying reasoning process is coherent
and reliable. This paper introduces Step-KTO, a training framework that
combines process-level and outcome-level binary feedback to guide LLMs toward
more trustworthy reasoning trajectories. By providing binary evaluations for
both the intermediate reasoning steps and the final answer, Step-KTO encourages
the model to adhere to logical progressions rather than relying on superficial
shortcuts. Our experiments on challenging mathematical benchmarks show that
Step-KTO significantly improves both final answer accuracy and the quality of
intermediate reasoning steps. For example, on the MATH-500 dataset, Step-KTO
achieves a notable improvement in Pass@1 accuracy over strong baselines. These
results highlight the promise of integrating stepwise process feedback into LLM
training, paving the way toward more interpretable and dependable reasoning
capabilities.Summary
AI-Generated Summary