CORAL : Évaluation de référence de la génération d'augmentation de récupération conversationnelle à plusieurs tours
CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation
October 30, 2024
Auteurs: Yiruo Cheng, Kelong Mao, Ziliang Zhao, Guanting Dong, Hongjin Qian, Yongkang Wu, Tetsuya Sakai, Ji-Rong Wen, Zhicheng Dou
cs.AI
Résumé
La Génération Augmentée par Récupération (RAG) est devenue un paradigme puissant pour améliorer les grands modèles de langage (LLM) grâce à la récupération de connaissances externes. Malgré l'attention généralisée qu'elle suscite, la recherche académique existante se concentre principalement sur le RAG à un seul tour, laissant une lacune significative dans le traitement des complexités des conversations multi-tours que l'on trouve dans les applications du monde réel. Pour combler cette lacune, nous présentons CORAL, un banc d'essai à grande échelle conçu pour évaluer les systèmes RAG dans des contextes conversationnels multi-tours réalistes. CORAL comprend des conversations diverses à la recherche d'informations dérivées automatiquement de Wikipedia et aborde des défis clés tels que la couverture en domaine ouvert, l'intensité des connaissances, les réponses libres et les changements de sujet. Il prend en charge trois tâches principales du RAG conversationnel : la récupération de passages, la génération de réponses et l'étiquetage de citations. Nous proposons un cadre unifié pour normaliser diverses méthodes de RAG conversationnel et menons une évaluation complète de ces méthodes sur CORAL, démontrant des opportunités substantielles pour améliorer les approches existantes.
English
Retrieval-Augmented Generation (RAG) has become a powerful paradigm for
enhancing large language models (LLMs) through external knowledge retrieval.
Despite its widespread attention, existing academic research predominantly
focuses on single-turn RAG, leaving a significant gap in addressing the
complexities of multi-turn conversations found in real-world applications. To
bridge this gap, we introduce CORAL, a large-scale benchmark designed to assess
RAG systems in realistic multi-turn conversational settings. CORAL includes
diverse information-seeking conversations automatically derived from Wikipedia
and tackles key challenges such as open-domain coverage, knowledge intensity,
free-form responses, and topic shifts. It supports three core tasks of
conversational RAG: passage retrieval, response generation, and citation
labeling. We propose a unified framework to standardize various conversational
RAG methods and conduct a comprehensive evaluation of these methods on CORAL,
demonstrating substantial opportunities for improving existing approaches.Summary
AI-Generated Summary