ChatPaper.aiChatPaper

ZebraLogic: 논리 추론을 위한 LLM의 확장 한계에 관한 연구

ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning

February 3, 2025
저자: Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi
cs.AI

초록

대규모 언어 모델(LLM)의 논리 추론 능력과 복잡한 비단조 추론에서의 확장성을 조사합니다. 이를 위해, 우리는 LLM 추론 성능을 평가하기 위한 포괄적인 평가 프레임워크인 ZebraLogic을 소개합니다. 이 프레임워크는 제약 충족 문제(CSPs)에서 유도된 논리 그리드 퍼즐에 대한 LLM 추론 성능을 평가하기 위한 것입니다. ZebraLogic은 조절 가능하고 측정 가능한 복잡성으로 퍼즐을 생성하여 Llama, o1 모델 및 DeepSeek-R1과 같은 모델의 확장 한계를 체계적으로 연구하는 것을 용이하게 합니다. 다양한 논리 제약 조건과 넓은 범위의 탐색 공간 복잡성을 포괄함으로써, ZebraLogic은 증가하는 난이도 하에서 추론을 평가하기 위한 구조화된 환경을 제공합니다. 우리의 결과는 문제 복잡성이 증가함에 따라 정확도가 상당히 감소하는 것을 밝혀냅니다. 이 현상을 복잡성의 저주라고 명명합니다. 이 한계는 더 큰 모델과 증가된 추론 시간 계산으로도 지속되며, 현재 LLM 추론 능력의 내재적인 제약을 시사합니다. 또한, Best-of-N 샘플링, 백트래킹 메커니즘 및 자가 확인 프롬프트를 포함한 논리 추론을 향상시키는 전략을 탐구합니다. 우리의 연구 결과는 LLM 추론의 확장성에 대한 중요한 통찰력을 제공하며, 기본적인 한계를 강조하고 개선 방향을 개요화합니다.
English
We investigate the logical reasoning capabilities of large language models (LLMs) and their scalability in complex non-monotonic reasoning. To this end, we introduce ZebraLogic, a comprehensive evaluation framework for assessing LLM reasoning performance on logic grid puzzles derived from constraint satisfaction problems (CSPs). ZebraLogic enables the generation of puzzles with controllable and quantifiable complexity, facilitating a systematic study of the scaling limits of models such as Llama, o1 models, and DeepSeek-R1. By encompassing a broad range of search space complexities and diverse logical constraints, ZebraLogic provides a structured environment to evaluate reasoning under increasing difficulty. Our results reveal a significant decline in accuracy as problem complexity grows -- a phenomenon we term the curse of complexity. This limitation persists even with larger models and increased inference-time computation, suggesting inherent constraints in current LLM reasoning capabilities. Additionally, we explore strategies to enhance logical reasoning, including Best-of-N sampling, backtracking mechanisms, and self-verification prompts. Our findings offer critical insights into the scalability of LLM reasoning, highlight fundamental limitations, and outline potential directions for improvement.

Summary

AI-Generated Summary

PDF152February 4, 2025