ChatPaper.aiChatPaper

FINEREASON:通过反思性谜题求解评估与提升大语言模型的审慎推理能力

FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving

February 27, 2025
作者: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Chaoqun Liu, Lidong Bing, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI

摘要

许多具有挑战性的推理任务不仅需要快速、直觉性的反应,更依赖于一种更为审慎、多步骤的解决方式。近期在大规模语言模型(LLMs)上的进展,标志着从“系统1”式的快速反应向“系统2”式的反思与纠错问题解决模式的重要转变。然而,当前的基准测试过分依赖最终答案的准确性,忽视了模型在推理过程中的中间步骤,从而无法全面评估模型在推理过程中反思与修正错误的能力。为填补这一空白,我们推出了FINEREASON,一个逻辑谜题基准,旨在对LLMs的推理能力进行细粒度评估。每个谜题均可分解为原子步骤,这为严格验证中间步骤的正确性提供了理想条件。在此基础上,我们引入了两项任务:状态检查与状态转移,以全面评估模型如何评估当前情境并规划下一步行动。为支持更广泛的研究,我们还提供了一个谜题训练集,旨在提升模型在一般数学任务上的表现。实验表明,经过我们状态检查与转移数据训练的模型,在GSM8K数学推理任务上的性能提升了高达5.1%。
English
Many challenging reasoning tasks require not just rapid, intuitive responses, but a more deliberate, multi-step approach. Recent progress in large language models (LLMs) highlights an important shift from the "System 1" way of quick reactions to the "System 2" style of reflection-and-correction problem solving. However, current benchmarks heavily rely on the final-answer accuracy, leaving much of a model's intermediate reasoning steps unexamined. This fails to assess the model's ability to reflect and rectify mistakes within the reasoning process. To bridge this gap, we introduce FINEREASON, a logic-puzzle benchmark for fine-grained evaluation of LLMs' reasoning capabilities. Each puzzle can be decomposed into atomic steps, making it ideal for rigorous validation of intermediate correctness. Building on this, we introduce two tasks: state checking, and state transition, for a comprehensive evaluation of how models assess the current situation and plan the next move. To support broader research, we also provide a puzzle training set aimed at enhancing performance on general mathematical tasks. We show that models trained on our state checking and transition data demonstrate gains in math reasoning by up to 5.1% on GSM8K.

Summary

AI-Generated Summary

论文概览

核心贡献

  • 提出了FINEREASON,一个用于细粒度评估大语言模型(LLMs)推理能力的逻辑谜题基准。
  • 引入了状态检查状态转换两个任务,全面评估模型在推理过程中的反思和修正能力。
  • 提供了谜题训练集,显著提升了模型在数学推理任务上的表现。

研究背景

  • 当前基准主要关注最终答案的准确性,忽略了模型在推理过程中的中间步骤。
  • 现有方法无法有效评估模型在推理过程中的反思和修正能力。

关键词

  • 大语言模型(LLMs)
  • 逻辑谜题
  • 状态检查
  • 状态转换
  • 数学推理

背景

研究空白

  • 现有基准无法全面评估LLMs在推理过程中的反思和修正能力。
  • 缺乏对模型中间推理步骤的细粒度评估。

技术挑战

  • 如何设计一个能够评估模型中间推理步骤的基准。
  • 如何通过谜题训练提升模型在数学推理任务上的表现。

先前方法

  • 现有基准主要关注最终答案的准确性。
  • 一些研究尝试通过规则错误评估模型的反思能力,但缺乏动态推理和错误修正的评估。

方法论

技术架构

  • FINEREASON基准包含四种逻辑谜题:数独、图着色、24点游戏和逻辑网格谜题。
  • 每个谜题可以分解为原子步骤,便于验证中间步骤的正确性。

实现细节

  • 通过深度优先搜索(DFS)分解谜题步骤。
  • 使用零样本思维链(CoT)提示技术激发模型的推理能力。

创新点

  • 引入了状态检查状态转换两个任务,全面评估模型的推理能力。
  • 提供了谜题训练集,显著提升了模型在数学推理任务上的表现。

结果

实验设置

  • 数据集:每个谜题类别采样500个中间状态,共2000个测试实例。
  • 模型:选择了表现最好的开源和闭源模型,包括推理导向模型和通用模型。

主要发现

  • 推理导向模型在状态检查和状态转换任务上表现优异,显著优于通用模型。
  • 通过谜题训练集,模型在数学推理任务上的表现提升了5.1%。

局限性

  • 使用文本表格表示谜题状态,未来可以探索其他表示形式,如图像。
  • 采用零样本CoT提示技术,未来可以探索更高级的提示技术。

结论

  • FINEREASON基准能够全面评估LLMs的推理能力,特别是在反思和修正方面。
  • 通过谜题训练集,模型在数学推理任务上的表现显著提升,展示了该方法的可扩展性和潜力。

附录

数据集统计

  • 每个谜题类别采样500个中间状态,共2000个测试实例。

提示模板

  • 提供了状态检查和状态转换任务的提示模板,用于评估模型的推理能力。

训练细节

  • 使用GRPO进行模型训练,超参数和训练细节见附录表7。

附加实验结果

  • 报告了模型在四个任务上的状态检查精度、召回率和F1分数,展示了模型在检测不可解状态方面的表现。

热门论文

1比特LLM时代:所有大型语言模型均为1.58比特。
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu WeiFeb 27, 2024610142

Qwen2.5 技术报告
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202435211

DeepSeek-R1:通过强化学习激励LLMs中的推理能力
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253485

PDF242February 28, 2025