CORAL: Valutazione delle prestazioni della generazione di integrazione del recupero conversazionale a più turni
CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation
October 30, 2024
Autori: Yiruo Cheng, Kelong Mao, Ziliang Zhao, Guanting Dong, Hongjin Qian, Yongkang Wu, Tetsuya Sakai, Ji-Rong Wen, Zhicheng Dou
cs.AI
Abstract
Il Generazione con Recupero Integrato (RAG) è diventato un paradigma potente per potenziare i grandi modelli linguistici (LLM) attraverso il recupero di conoscenze esterne. Nonostante la sua ampia attenzione, la ricerca accademica esistente si concentra prevalentemente sul RAG a singolo turno, lasciando una significativa lacuna nell'affrontare le complessità delle conversazioni multi-turno trovate nelle applicazioni del mondo reale. Per colmare questa lacuna, presentiamo CORAL, un benchmark su larga scala progettato per valutare i sistemi RAG in contesti conversazionali multi-turno realistici. CORAL include conversazioni di ricerca di informazioni diverse derivate automaticamente da Wikipedia e affronta sfide chiave come la copertura in un dominio aperto, l'intensità della conoscenza, risposte in forma libera e cambi di argomento. Supporta tre compiti principali del RAG conversazionale: recupero di passaggi, generazione di risposte e etichettatura delle citazioni. Proponiamo un framework unificato per standardizzare vari metodi di RAG conversazionale e condurre una valutazione completa di questi metodi su CORAL, dimostrando opportunità sostanziali per migliorare gli approcci esistenti.
English
Retrieval-Augmented Generation (RAG) has become a powerful paradigm for
enhancing large language models (LLMs) through external knowledge retrieval.
Despite its widespread attention, existing academic research predominantly
focuses on single-turn RAG, leaving a significant gap in addressing the
complexities of multi-turn conversations found in real-world applications. To
bridge this gap, we introduce CORAL, a large-scale benchmark designed to assess
RAG systems in realistic multi-turn conversational settings. CORAL includes
diverse information-seeking conversations automatically derived from Wikipedia
and tackles key challenges such as open-domain coverage, knowledge intensity,
free-form responses, and topic shifts. It supports three core tasks of
conversational RAG: passage retrieval, response generation, and citation
labeling. We propose a unified framework to standardize various conversational
RAG methods and conduct a comprehensive evaluation of these methods on CORAL,
demonstrating substantial opportunities for improving existing approaches.Summary
AI-Generated Summary