RATIONALYST: 추론 향상을 위한 사전 훈련 과정 지도
RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
October 1, 2024
저자: Dongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi
cs.AI
초록
LLM이 생성하는 추론 단계는 종종 불완전할 수 있습니다. 왜냐하면 그들은 사전 훈련 데이터에서 발견되는 일상 대화에서 흔히 볼 수 있는 논리적 도약을 모방하기 때문에 기본적인 근거가 자주 암시적으로 남겨집니다. 이러한 도전에 대처하기 위해 우리는 RATIONALYST를 소개합니다. 이는 미분류 데이터에서 추출된 방대한 근거 주석 컬렉션에 대한 사전 훈련을 기반으로 하는 추론의 과정 지도 모델입니다. 우리는 웹 규모의 미분류 데이터 집합(Pile)과 최소한의 인간 개입을 통해 추론 데이터 집합의 조합에서 79,000개의 근거를 추출했습니다. 이러한 추론을 위한 웹 규모의 사전 훈련은 RATIONALYST가 수학적, 상식적, 과학적 및 논리적 추론을 포함한 다양한 추론 작업에 걸쳐 일관되게 일반화할 수 있도록 합니다. LLaMa-3-8B에서 세밀하게 조정된 후, RATIONALYST는 7가지 대표적인 추론 벤치마크에서 추론의 정확도를 평균 3.9% 향상시켰습니다. 또한 GPT-4와 같은 큰 검증기와 일치하는 훈련 세트에서 세밀하게 조정된 유사한 크기의 모델보다 우수한 성능을 보여주었습니다.
English
The reasoning steps generated by LLMs might be incomplete, as they mimic
logical leaps common in everyday communication found in their pre-training
data: underlying rationales are frequently left implicit (unstated). To address
this challenge, we introduce RATIONALYST, a model for process-supervision of
reasoning based on pre-training on a vast collection of rationale annotations
extracted from unlabeled data. We extract 79k rationales from web-scale
unlabelled dataset (the Pile) and a combination of reasoning datasets with
minimal human intervention. This web-scale pre-training for reasoning allows
RATIONALYST to consistently generalize across diverse reasoning tasks,
including mathematical, commonsense, scientific, and logical reasoning.
Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by
an average of 3.9% on 7 representative reasoning benchmarks. It also
demonstrates superior performance compared to significantly larger verifiers
like GPT-4 and similarly sized models fine-tuned on matching training sets.Summary
AI-Generated Summary