CORAL : Évaluation de référence de la génération d'augmentation de récupération conversationnelle à plusieurs tours

CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

October 30, 2024
Auteurs: Yiruo Cheng, Kelong Mao, Ziliang Zhao, Guanting Dong, Hongjin Qian, Yongkang Wu, Tetsuya Sakai, Ji-Rong Wen, Zhicheng Dou
cs.AI

Résumé

La Génération Augmentée par Récupération (RAG) est devenue un paradigme puissant pour améliorer les grands modèles de langage (LLM) grâce à la récupération de connaissances externes. Malgré l'attention généralisée qu'elle suscite, la recherche académique existante se concentre principalement sur le RAG à un seul tour, laissant une lacune significative dans le traitement des complexités des conversations multi-tours que l'on trouve dans les applications du monde réel. Pour combler cette lacune, nous présentons CORAL, un banc d'essai à grande échelle conçu pour évaluer les systèmes RAG dans des contextes conversationnels multi-tours réalistes. CORAL comprend des conversations diverses à la recherche d'informations dérivées automatiquement de Wikipedia et aborde des défis clés tels que la couverture en domaine ouvert, l'intensité des connaissances, les réponses libres et les changements de sujet. Il prend en charge trois tâches principales du RAG conversationnel : la récupération de passages, la génération de réponses et l'étiquetage de citations. Nous proposons un cadre unifié pour normaliser diverses méthodes de RAG conversationnel et menons une évaluation complète de ces méthodes sur CORAL, démontrant des opportunités substantielles pour améliorer les approches existantes.
English
Retrieval-Augmented Generation (RAG) has become a powerful paradigm for enhancing large language models (LLMs) through external knowledge retrieval. Despite its widespread attention, existing academic research predominantly focuses on single-turn RAG, leaving a significant gap in addressing the complexities of multi-turn conversations found in real-world applications. To bridge this gap, we introduce CORAL, a large-scale benchmark designed to assess RAG systems in realistic multi-turn conversational settings. CORAL includes diverse information-seeking conversations automatically derived from Wikipedia and tackles key challenges such as open-domain coverage, knowledge intensity, free-form responses, and topic shifts. It supports three core tasks of conversational RAG: passage retrieval, response generation, and citation labeling. We propose a unified framework to standardize various conversational RAG methods and conduct a comprehensive evaluation of these methods on CORAL, demonstrating substantial opportunities for improving existing approaches.

Summary

AI-Generated Summary

PDF533November 16, 2024