신뢰할 수 있는 논리 지원 추론 및 탐색 (FLARE)
FLARE: Faithful Logic-Aided Reasoning and Exploration
October 14, 2024
저자: Erik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein
cs.AI
초록
현대의 질의응답(QA) 및 추론 접근 방식은 대규모 언어 모델(Large Language Models, LLMs)을 기반으로 하며, 일반적으로 Chain-of-Thought (CoT)과 같은 프롬프팅 기술을 사용하여 질문 공간과 범위에 대한 보다 세부적인 탐색과 추론을 가정합니다. 그러나 이러한 방법은 종종 모델이 생성한 중간 추론 체인에 충실한 출력을 생성하는 데 어려움을 겪습니다. 반면에 Faithful CoT (F-CoT)와 같은 신경 기호화 방법은 LLMs를 외부 기호 해결자와 결합하는 것을 제안합니다. 이러한 방식은 높은 충실도를 자랑하지만 일반적으로 코드 생성에 대한 모델 훈련이 필요하며 모호하거나 엄격하게 형식화하기 어려운 작업에 어려움을 겪습니다. 우리는 Faithful Logic-Aided Reasoning and Exploration (FLARE)이라는 새로운 해석 가능한 접근 방식을 소개합니다. 이 방법은 작업 분해를 사용하여 문제 공간을 탐색합니다. 우리는 LLM을 사용하여 솔루션을 계획하고 논리 프로그래밍 코드를 사용하여 쿼리를 사실과 술어로 부드럽게 형식화하며, 그 코드 실행을 정의된 공간 상의 철저한 다중 점프 검색을 사용하여 시뮬레이션합니다. 우리의 방법을 통해 생성된 코드에 대한 추론 과정의 충실도를 계산하고 외부 해결자에 의존하지 않고 다중 점프 검색 중의 단계를 분석할 수 있습니다. 우리의 방법은 9가지 다양한 추론 벤치마크 중 7가지에서 최고 수준의 결과를 달성합니다. 또한 모델의 충실성이 전반적인 성능과 긍정적으로 상관 관계가 있음을 보여주며, FLARE이 올바른 답변으로 이끄는 데 충분하고 최적의 추론을 제공하는 결정적 요소를 정확히 파악하는 데 도움이 되는 것을 보여줍니다.
English
Modern Question Answering (QA) and Reasoning approaches based on Large
Language Models (LLMs) commonly use prompting techniques, such as
Chain-of-Thought (CoT), assuming the resulting generation will have a more
granular exploration and reasoning over the question space and scope. However,
such methods struggle with generating outputs that are faithful to the
intermediate chain of reasoning produced by the model. On the other end of the
spectrum, neuro-symbolic methods such as Faithful CoT (F-CoT) propose to
combine LLMs with external symbolic solvers. While such approaches boast a high
degree of faithfulness, they usually require a model trained for code
generation and struggle with tasks that are ambiguous or hard to formalise
strictly. We introduce Faithful Logic-Aided
Reasoning and Exploration (\ours), a novel
interpretable approach for traversing the problem space using task
decompositions. We use the LLM to plan a solution, soft-formalise the query
into facts and predicates using a logic programming code and simulate that code
execution using an exhaustive multi-hop search over the defined space. Our
method allows us to compute the faithfulness of the reasoning process w.r.t.
the generated code and analyse the steps of the multi-hop search without
relying on external solvers. Our methods achieve SOTA results on 7
out of 9 diverse reasoning benchmarks. We also show that model
faithfulness positively correlates with overall performance and further
demonstrate that {\ours} allows pinpointing the decisive factors
sufficient for and leading to the correct answer with optimal reasoning during
the multi-hop search.Summary
AI-Generated Summary