CORAL: Benchmarking für Multi-Turn Konversationsabruf-Erweiterung-Generierung
CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation
October 30, 2024
Autoren: Yiruo Cheng, Kelong Mao, Ziliang Zhao, Guanting Dong, Hongjin Qian, Yongkang Wu, Tetsuya Sakai, Ji-Rong Wen, Zhicheng Dou
cs.AI
Zusammenfassung
Die Retrieval-gestützte Generierung (RAG) ist zu einem leistungsstarken Paradigma geworden, um große Sprachmodelle (LLMs) durch die externe Wissensabfrage zu verbessern. Trotz ihrer weit verbreiteten Aufmerksamkeit konzentrieren sich bestehende wissenschaftliche Untersuchungen hauptsächlich auf den Einzelturn-RAG, was eine signifikante Lücke bei der Bewältigung der Komplexitäten von Mehrturn-Gesprächen in Anwendungen der realen Welt hinterlässt. Um diese Lücke zu schließen, stellen wir CORAL vor, einen groß angelegten Benchmark, der entwickelt wurde, um RAG-Systeme in realistischen Mehrturn-Gesprächssituationen zu bewerten. CORAL umfasst vielfältige informationsuchende Gespräche, die automatisch aus Wikipedia abgeleitet wurden, und behandelt Schlüsselherausforderungen wie die Abdeckung im Open Domain, Wissensintensität, freie Antwortformen und Themenwechsel. Es unterstützt drei Kernaufgaben des konversationellen RAG: Passagenabruf, Antwortgenerierung und Zitationskennzeichnung. Wir schlagen einen einheitlichen Rahmen vor, um verschiedene konversationelle RAG-Methoden zu standardisieren und führen eine umfassende Bewertung dieser Methoden auf CORAL durch, was erhebliche Möglichkeiten zur Verbesserung bestehender Ansätze aufzeigt.
English
Retrieval-Augmented Generation (RAG) has become a powerful paradigm for
enhancing large language models (LLMs) through external knowledge retrieval.
Despite its widespread attention, existing academic research predominantly
focuses on single-turn RAG, leaving a significant gap in addressing the
complexities of multi-turn conversations found in real-world applications. To
bridge this gap, we introduce CORAL, a large-scale benchmark designed to assess
RAG systems in realistic multi-turn conversational settings. CORAL includes
diverse information-seeking conversations automatically derived from Wikipedia
and tackles key challenges such as open-domain coverage, knowledge intensity,
free-form responses, and topic shifts. It supports three core tasks of
conversational RAG: passage retrieval, response generation, and citation
labeling. We propose a unified framework to standardize various conversational
RAG methods and conduct a comprehensive evaluation of these methods on CORAL,
demonstrating substantial opportunities for improving existing approaches.Summary
AI-Generated Summary