역사적 사고는 LLMs를 더 강력한 추론자로 만듭니다.
Reverse Thinking Makes LLMs Stronger Reasoners
November 29, 2024
저자: Justin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister
cs.AI
초록
역사적 사고는 인간의 추론에서 중요한 역할을 합니다. 인간은 문제에서 해결책으로의 추론뿐만 아니라 그 반대인 즉, 해결책에서 문제로의 추론도 할 수 있습니다. 이는 종종 전방 및 후방 사고 간의 일관성 확인을 가능하게 하여 전체적인 추론 성능을 향상시킵니다. 대규모 언어 모델(LLMs)이 역사적 사고를 수행할 수 있도록 하기 위해 데이터 증강과 학습 목표로 이루어진 Reverse-Enhanced Thinking(RevThink) 프레임워크를 소개합니다. RevThink에서는 원래 질문, 전방 추론, 후방 질문, 후방 추론으로 구성된 교사 모델에서 구조화된 전방-후방 추론을 수집하여 데이터셋을 증강합니다. 그런 다음 세 가지 목표를 사용하여 작은 학생 모델을 다중 작업 학습 방식으로 훈련합니다: (a) 질문으로부터 전방 추론 생성, (b) 질문으로부터 후방 질문 생성, (c) 후방 질문으로부터 후방 추론 생성. 상식, 수학, 논리 추론을 다루는 12개 데이터셋에서의 실험 결과는 학생 모델의 제로샷 성능 대비 평균 13.53% 향상과 가장 강력한 지식 증류 기준선 대비 6.84% 향상을 보여줍니다. 더불어, 우리의 방법은 샘플 효율성을 나타냅니다 - 훈련 데이터에서 올바른 전방 추론의 10%만 사용하여, 10배 더 많은 전방 추론을 훈련한 표준 파인튜닝 방법을 능가합니다. RevThink은 또한 분포 밖의 보류된 데이터셋에 대한 강력한 일반화 능력을 보여줍니다.
English
Reverse thinking plays a crucial role in human reasoning. Humans can reason
not only from a problem to a solution but also in reverse, i.e., start from the
solution and reason towards the problem. This often enhances overall reasoning
performance as it enables consistency checks between their forward and backward
thinking. To enable Large Language Models (LLMs) to perform reverse thinking,
we introduce Reverse-Enhanced Thinking (RevThink), a framework composed of data
augmentation and learning objectives. In RevThink, we augment the dataset by
collecting structured forward-backward reasoning from a teacher model,
consisting of: (1) the original question, (2) forward reasoning, (3) backward
question, and (4) backward reasoning. We then employ three objectives to train
a smaller student model in a multi-task learning fashion: (a) generate forward
reasoning from a question, (b) generate a backward question from a question,
and (c) generate backward reasoning from the backward question. Experiments
across 12 datasets covering commonsense, math, and logical reasoning show an
average 13.53% improvement over the student model's zero-shot performance and a
6.84% improvement over the strongest knowledge distillation baselines.
Moreover, our method demonstrates sample efficiency -- using only 10% of the
correct forward reasoning from the training data, it outperforms a standard
fine-tuning method trained on 10x more forward reasoning. RevThink also
exhibits strong generalization to out-of-distribution held-out datasets.Summary
AI-Generated Summary