ChatPaper.aiChatPaper

사실, 가져오기, 그리고 추론: 정보 검색을 강화한 생성 모델의 통합 평가

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

September 19, 2024
저자: Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui
cs.AI

초록

대형 언어 모델(Large Language Models, LLMs)은 다양한 인지 작업에서 상당한 성능 향상을 보여주었습니다. 최근 등장한 응용 분야 중 하나는 검색 증강 생성(Retrieval-Augmented Generation, RAG) 능력을 향상시키기 위해 LLMs를 활용하는 것입니다. 이러한 시스템은 LLMs가 사용자 쿼리를 이해하고 관련 정보를 검색하며 일관되고 정확한 응답을 합성하는 능력을 요구합니다. 이러한 시스템이 현실 세계에서 점점 더 많이 배포되고 있기 때문에 포괄적인 평가가 중요해집니다. 이를 위해 우리는 FRAMES (Factuality, Retrieval, And reasoning MEasurement Set)를 제안합니다. 이는 LLMs의 사실적인 응답 능력을 테스트하고 검색 능력을 평가하며 최종 답변을 생성하는 데 필요한 추론을 평가하기 위해 고안된 고품질 평가 데이터셋입니다. 이전 연구들은 이러한 능력을 독립적으로 평가하기 위한 데이터셋과 벤치마크를 제공해왔지만, FRAMES는 최종 RAG 시나리오에서의 LLM 성능을 더 명확하게 제시하는 통합된 프레임워크를 제공합니다. 우리의 데이터셋은 여러 소스에서 정보를 통합해야 하는 어려운 다중 점프 질문으로 구성되어 있습니다. 우리는 최첨단 LLMs조차 이 작업에 어려움을 겪는 것을 보여주는 베이스라인 결과를 제시하며, 검색 없이 0.40의 정확도를 달성했습니다. 우리가 제안하는 다단계 검색 파이프라인을 통해 정확도가 크게 향상되어 0.66의 정확도를 달성했습니다(50% 이상의 향상). 우리의 연구가 평가 간극을 줄이고 더 견고하고 능력 있는 RAG 시스템을 개발하는 데 도움이 되기를 희망합니다.
English
Large Language Models (LLMs) have demonstrated significant performance improvements across various cognitive tasks. An emerging application is using LLMs to enhance retrieval-augmented generation (RAG) capabilities. These systems require LLMs to understand user queries, retrieve relevant information, and synthesize coherent and accurate responses. Given the increasing real-world deployment of such systems, comprehensive evaluation becomes crucial. To this end, we propose FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), a high-quality evaluation dataset designed to test LLMs' ability to provide factual responses, assess retrieval capabilities, and evaluate the reasoning required to generate final answers. While previous work has provided datasets and benchmarks to evaluate these abilities in isolation, FRAMES offers a unified framework that provides a clearer picture of LLM performance in end-to-end RAG scenarios. Our dataset comprises challenging multi-hop questions that require the integration of information from multiple sources. We present baseline results demonstrating that even state-of-the-art LLMs struggle with this task, achieving 0.40 accuracy with no retrieval. The accuracy is significantly improved with our proposed multi-step retrieval pipeline, achieving an accuracy of 0.66 (>50% improvement). We hope our work will help bridge evaluation gaps and assist in developing more robust and capable RAG systems.

Summary

AI-Generated Summary

PDF253November 16, 2024