Mehr Dokumente, gleiche Länge: Die Herausforderung mehrerer Dokumente in RAG isolieren
More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG
March 6, 2025
Autoren: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky
cs.AI
Zusammenfassung
Retrieval-augmented Generation (RAG) versorgt große Sprachmodelle (LLMs) mit relevanten Dokumenten. Obwohl frühere Studien feststellten, dass das Abrufen vieler Dokumente die Leistung beeinträchtigen kann, wurde nicht isoliert untersucht, wie sich die Anzahl der Dokumente auf die Leistung auswirkt, während die Kontextlänge konstant gehalten wird. Wir evaluieren verschiedene Sprachmodelle anhand von speziell erstellten Datensätzen, die auf einer Multi-Hop-QA-Aufgabe basieren. Dabei halten wir die Kontextlänge und die Position der relevanten Informationen konstant, während wir die Anzahl der Dokumente variieren. Unsere Ergebnisse zeigen, dass eine Erhöhung der Dokumentanzahl in RAG-Szenarien erhebliche Herausforderungen für LLMs darstellt. Zudem deuten unsere Ergebnisse darauf hin, dass die Verarbeitung mehrerer Dokumente eine eigenständige Herausforderung darstellt, die sich von der Handhabung langer Kontexte unterscheidet. Wir stellen die Datensätze und den Code ebenfalls zur Verfügung: https://github.com/shaharl6000/MoreDocsSameLen.
English
Retrieval-augmented generation (RAG) provides LLMs with relevant documents.
Although previous studies noted that retrieving many documents can degrade
performance, they did not isolate how the quantity of documents affects
performance while controlling for context length. We evaluate various language
models on custom datasets derived from a multi-hop QA task. We keep the context
length and position of relevant information constant while varying the number
of documents, and find that increasing the document count in RAG settings poses
significant challenges for LLMs. Additionally, our results indicate that
processing multiple documents is a separate challenge from handling long
contexts. We also make the datasets and code available:
https://github.com/shaharl6000/MoreDocsSameLen .Summary
AI-Generated Summary