ChatPaper.aiChatPaper

대규모 언어 모델에서 사고 체인을 강화하기 위한 순차 질의 응답 추론 엔진인 SQuARE: Sequential Question Answering Reasoning Engine

SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models

February 13, 2025
저자: Daniel Fleischer, Moshe Berchansky, Gad Markovits, Moshe Wasserblat
cs.AI

초록

자연어 처리 분야에서는 대형 언어 모델(LLMs)이 점차 복잡한 추론 도전 과제를 맡게 됩니다. 연상 체인 방식과 같은 기존 방법들은 유망성을 보였지만 종종 모델의 추론 능력을 완전히 활용하지 못하는 한계가 있습니다. 본 논문에서는 SQuARE(Sequential Question Answering Reasoning Engine)라는 새로운 프롬프팅 기술을 소개하며, 이 기술은 자가 심문 패러다임을 통해 추론을 개선하도록 설계되었습니다. CoT 프레임워크를 기반으로 한 SQuARE는 모델이 주요 질의에 대응하기 전에 여러 보조 질문을 생성하고 해결하도록 유도하여 주제의 다양한 측면을 보다 철저히 탐색하도록 돕습니다. Llama 3 및 GPT-4o 모델을 활용한 다양한 질문-답변 데이터셋을 대상으로 실시한 포괄적인 평가 결과, SQuARE가 기존의 CoT 프롬프트 및 기존의 다시 말하고 응답하는 방법을 크게 능가함을 입증했습니다. 질의를 체계적으로 분해함으로써, SQuARE는 추론 작업에서 LLM의 능력을 향상시킵니다. 코드는 https://github.com/IntelLabs/RAG-FiT/tree/square에서 공개적으로 제공됩니다.
English
In the rapidly evolving field of Natural Language Processing, Large Language Models (LLMs) are tasked with increasingly complex reasoning challenges. Traditional methods like chain-of-thought prompting have shown promise but often fall short in fully leveraging a model's reasoning capabilities. This paper introduces SQuARE (Sequential Question Answering Reasoning Engine), a novel prompting technique designed to improve reasoning through a self-interrogation paradigm. Building upon CoT frameworks, SQuARE prompts models to generate and resolve multiple auxiliary questions before tackling the main query, promoting a more thorough exploration of various aspects of a topic. Our expansive evaluations, conducted with Llama 3 and GPT-4o models across multiple question-answering datasets, demonstrate that SQuARE significantly surpasses traditional CoT prompts and existing rephrase-and-respond methods. By systematically decomposing queries, SQuARE advances LLM capabilities in reasoning tasks. The code is publicly available at https://github.com/IntelLabs/RAG-FiT/tree/square.

Summary

AI-Generated Summary

PDF162February 14, 2025