ChatPaper.aiChatPaper

대규모 언어 모델을 활용한 질의 응답에 대한 ARR: 분석, 검색 및 추론을 통한 방법

ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

February 7, 2025
저자: Yuwei Yin, Giuseppe Carenini
cs.AI

초록

대형 언어 모델(Large language models, LLMs)은 종종 다중 선택형 질문-응답(QA) 작업으로 구성된 어려운 벤치마크에서 놀라운 성능을 달성합니다. 제로샷 Chain-of-Thought(CoT) 프롬프팅은 LLMs의 추론력을 향상시키지만 "단계별로 생각하십시오"라는 모호하고 일반적인 안내만 제공합니다. 본 논문은 QA 해결 과정에서 세 가지 핵심 단계를 명확히 반영하는 직관적이고 효과적인 제로샷 프롬프팅 방법인 ARR을 소개합니다: 질문의 의도 분석, 관련 정보 검색, 그리고 단계별 추론. 다양하고 어려운 QA 작업을 횡단하는 포괄적인 실험 결과는 ARR이 일관되게 베이스라인(ARR 프롬프팅 없음)을 개선하고 CoT를 능가한다는 것을 입증합니다. Ablation 및 사례 연구는 분석, 검색 및 추론 각 구성 요소의 긍정적인 기여를 더욱 확증합니다. 특히, 의도 분석이 ARR에서 중요한 역할을 합니다. 더불어, 다양한 모델 크기, LLM 시리즈 및 생성 설정을 횡단하는 포괄적인 평가는 ARR의 효과성, 견고성 및 일반화 가능성을 확고히 합니다.
English
Large language models (LLMs) achieve remarkable performance on challenging benchmarks that are often structured as multiple-choice question-answering (QA) tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs but provides only vague and generic guidance ("think step by step"). This paper introduces ARR, an intuitive and effective zero-shot prompting method that explicitly incorporates three key steps in QA solving: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Comprehensive experiments across diverse and challenging QA tasks demonstrate that ARR consistently improves the Baseline (without ARR prompting) and outperforms CoT. Ablation and case studies further validate the positive contributions of each component: analyzing, retrieving, and reasoning. Notably, intent analysis plays a vital role in ARR. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.

Summary

AI-Generated Summary

PDF73February 10, 2025