GRS-QA -- 그래프 추론 구조화 질문 응답 데이터셋

GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

November 1, 2024
저자: Anish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang
cs.AI

초록

대형 언어 모델(Large Language Models, LLMs)은 고급 추론 능력으로 인해 다중 점프 질문 응답(Multi-hop Question-Answering, M-QA)에서 뛰어난 성과를 거두었습니다. 그러나 내재된 추론 구조가 LLM M-QA 성능에 미치는 영향은 QA 데이터셋에서 세밀한 추론 구조를 제공하지 않아 명확하지 않습니다. 이 간극을 해소하기 위해 우리는 그래프 추론 구조화 질문 응답 데이터셋(Graph Reasoning-Structured Question Answering Dataset, GRS-QA)을 소개합니다. 이 데이터셋은 QA 쌍을 위한 의미론적 맥락과 추론 구조를 모두 포함합니다. 기존 M-QA 데이터셋과 달리, 여러 추론 구조가 얽혀 있는 것과는 달리 GRS-QA는 추론 그래프를 구성하여 복잡한 추론 경로를 명시적으로 포착합니다. 여기서 노드는 텍스트 맥락을 나타내고 엣지는 논리적 흐름을 나타냅니다. 이러한 다양한 구조의 추론 그래프는 다양한 추론 구조를 통해 LLM 추론 능력을 세밀하게 평가할 수 있게 합니다. 우리의 경험적 분석 결과, LLM은 다양한 추론 구조를 다룰 때 서로 다른 성능을 보입니다. 이 결과는 의미론과 비교하여 텍스트 구조의 탐색을 용이하게 합니다.
English
Large Language Models (LLMs) have excelled in multi-hop question-answering (M-QA) due to their advanced reasoning abilities. However, the impact of the inherent reasoning structures on LLM M-QA performance remains unclear, largely due to the absence of QA datasets that provide fine-grained reasoning structures. To address this gap, we introduce the Graph Reasoning-Structured Question Answering Dataset (GRS-QA), which includes both semantic contexts and reasoning structures for QA pairs. Unlike existing M-QA datasets, where different reasoning structures are entangled together, GRS-QA explicitly captures intricate reasoning pathways by constructing reasoning graphs, where nodes represent textual contexts and edges denote logical flows. These reasoning graphs of different structures enable a fine-grained evaluation of LLM reasoning capabilities across various reasoning structures. Our empirical analysis reveals that LLMs perform differently when handling questions with varying reasoning structures. This finding facilitates the exploration of textual structures as compared with semantics.

Summary

AI-Generated Summary

PDF62November 13, 2024