ChatPaper.aiChatPaper

물리학 기반 추론을 향한 포괄적인 벤치마크인 PhysReason

PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

February 17, 2025
저자: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
cs.AI

초록

대형 언어 모델은 수학 및 논리 추론을 포함한 다양한 영역에서 놀라운 능력을 보여줍니다. 그러나 현재의 평가는 물리학 기반 추론을 간과하고 있습니다. 이는 물리학 이론과 제약 조건이 필요한 복잡한 작업입니다. 본 연구에서는 지식 기반(25%)과 추론 기반(75%) 문제로 구성된 1,200개의 문제 벤치마크 PhysReason을 제시합니다. 후자는 쉬운, 중간, 어려운 세 난이도로 나뉘어 있습니다. 특히, 문제들은 평균 8.1개의 해결 단계가 필요하며, 어려운 문제는 15.6개의 단계가 필요하여 물리학 기반 추론의 복잡성을 반영합니다. 물리학 솔루션 자동 채점 프레임워크를 제안하며, 효율적인 답변 수준 및 포괄적인 단계 수준 평가를 통합합니다. Deepseek-R1, Gemini-2.0-Flash-Thinking, o3-mini-high와 같은 최고 성능 모델은 답변 수준 평가에서 60% 미만을 달성하며, 성능은 지식 문제(75.11%)에서 어려운 문제(31.95%)로 갈수록 하락합니다. 단계 수준 평가를 통해 물리학 이론 적용, 물리학 과정 이해, 계산, 물리학 조건 분석이라는 네 가지 주요 병목 현상을 확인했습니다. 이러한 발견으로 PhysReason은 대형 언어 모델의 물리학 기반 추론 능력을 평가하기 위한 혁신적이고 포괄적인 벤치마크로 위치하게 되었습니다. 우리의 코드와 데이터는 https:/dxzxy12138.github.io/PhysReason에서 공개될 예정입니다.
English
Large language models demonstrate remarkable capabilities across various domains, especially mathematics and logic reasoning. However, current evaluations overlook physics-based reasoning - a complex task requiring physics theorems and constraints. We present PhysReason, a 1,200-problem benchmark comprising knowledge-based (25%) and reasoning-based (75%) problems, where the latter are divided into three difficulty levels (easy, medium, hard). Notably, problems require an average of 8.1 solution steps, with hard requiring 15.6, reflecting the complexity of physics-based reasoning. We propose the Physics Solution Auto Scoring Framework, incorporating efficient answer-level and comprehensive step-level evaluations. Top-performing models like Deepseek-R1, Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on answer-level evaluation, with performance dropping from knowledge questions (75.11%) to hard problems (31.95%). Through step-level evaluation, we identified four key bottlenecks: Physics Theorem Application, Physics Process Understanding, Calculation, and Physics Condition Analysis. These findings position PhysReason as a novel and comprehensive benchmark for evaluating physics-based reasoning capabilities in large language models. Our code and data will be published at https:/dxzxy12138.github.io/PhysReason.

Summary

AI-Generated Summary

PDF52February 18, 2025