CORAL: Benchmarking für Multi-Turn Konversationsabruf-Erweiterung-Generierung

Zusammenfassung

Die Retrieval-gestützte Generierung (RAG) ist zu einem leistungsstarken Paradigma geworden, um große Sprachmodelle (LLMs) durch die externe Wissensabfrage zu verbessern. Trotz ihrer weit verbreiteten Aufmerksamkeit konzentrieren sich bestehende wissenschaftliche Untersuchungen hauptsächlich auf den Einzelturn-RAG, was eine signifikante Lücke bei der Bewältigung der Komplexitäten von Mehrturn-Gesprächen in Anwendungen der realen Welt hinterlässt. Um diese Lücke zu schließen, stellen wir CORAL vor, einen groß angelegten Benchmark, der entwickelt wurde, um RAG-Systeme in realistischen Mehrturn-Gesprächssituationen zu bewerten. CORAL umfasst vielfältige informationsuchende Gespräche, die automatisch aus Wikipedia abgeleitet wurden, und behandelt Schlüsselherausforderungen wie die Abdeckung im Open Domain, Wissensintensität, freie Antwortformen und Themenwechsel. Es unterstützt drei Kernaufgaben des konversationellen RAG: Passagenabruf, Antwortgenerierung und Zitationskennzeichnung. Wir schlagen einen einheitlichen Rahmen vor, um verschiedene konversationelle RAG-Methoden zu standardisieren und führen eine umfassende Bewertung dieser Methoden auf CORAL durch, was erhebliche Möglichkeiten zur Verbesserung bestehender Ansätze aufzeigt.

English

Retrieval-Augmented Generation (RAG) has become a powerful paradigm for enhancing large language models (LLMs) through external knowledge retrieval. Despite its widespread attention, existing academic research predominantly focuses on single-turn RAG, leaving a significant gap in addressing the complexities of multi-turn conversations found in real-world applications. To bridge this gap, we introduce CORAL, a large-scale benchmark designed to assess RAG systems in realistic multi-turn conversational settings. CORAL includes diverse information-seeking conversations automatically derived from Wikipedia and tackles key challenges such as open-domain coverage, knowledge intensity, free-form responses, and topic shifts. It supports three core tasks of conversational RAG: passage retrieval, response generation, and citation labeling. We propose a unified framework to standardize various conversational RAG methods and conduct a comprehensive evaluation of these methods on CORAL, demonstrating substantial opportunities for improving existing approaches.

CORAL: Benchmarking für Multi-Turn Konversationsabruf-Erweiterung-Generierung

CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

Zusammenfassung

Support