고급 추론을 위한 다양한 추론 및 검증
Diverse Inference and Verification for Advanced Reasoning
February 14, 2025
저자: Iddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell
cs.AI
초록
OpenAI의 o1, o3 및 DeepSeek R1과 같은 추론 대형 언어 모델(LLM)은 수학 및 코딩 분야에서 상당한 진전을 이루었지만, 국제 수학 올림피아드(IMO) 조합론 문제, 추론 및 추상화 코퍼스(ARC) 퍼즐, 그리고 인류의 마지막 시험(HLE) 질문과 같은 고급 과제에는 여전히 어려움을 겪고 있습니다. 우리는 테스트 시점에서 여러 모델과 방법을 결합한 다양한 추론 접근 방식을 사용합니다. 수학 및 코드 문제의 정답을 검증하고, 다른 문제에 대해 거부 샘플링을 수행하는 것이 간단하면서도 효과적임을 발견했습니다. IMO 문제의 정답은 Lean을 통해, ARC 퍼즐의 정답은 코드를 통해 자동으로 검증하며, HLE 질문에는 best-of-N 방식이 효과적으로 답변을 제공합니다. 우리의 접근 방식은 IMO 조합론 문제의 정확도를 33.3%에서 77.8%로, HLE 질문의 정확도를 8%에서 37%로 높였으며, 948명의 인간이 해결하지 못한 ARC 퍼즐의 80%와 o3 고성능 컴퓨팅이 해결하지 못한 ARC 퍼즐의 26.5%를 해결했습니다. 테스트 시점 시뮬레이션, 강화 학습, 그리고 추론 피드백을 통한 메타러닝은 에이전트 그래프 표현을 조정하고 프롬프트, 코드, 데이터셋을 다양화함으로써 일반화를 개선합니다. 우리의 접근 방식은 신뢰할 수 있고 견고하며 확장 가능하며, 재현 가능한 연구의 정신에 따라 출판 시 공개할 예정입니다.
English
Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant
progress in mathematics and coding, yet find challenging advanced tasks such as
International Mathematical Olympiad (IMO) combinatorics problems, Abstraction
and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions.
We use a diverse inference approach that combines multiple models and methods
at test time. We find that verifying mathematics and code problems, and
rejection sampling on other problems is simple and effective. We automatically
verify correctness of solutions to IMO problems by Lean, and ARC puzzles by
code, and find that best-of-N effectively answers HLE questions. Our approach
increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%,
accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that
948 humans could not and 26.5% of ARC puzzles that o3 high compute does not.
Test-time simulations, reinforcement learning, and meta-learning with inference
feedback improve generalization by adapting agent graph representations and
varying prompts, code, and datasets. Our approach is reliable, robust, and
scalable, and in the spirit of reproducible research, we will make it publicly
available upon publication.Summary
AI-Generated Summary