CoRAG: Generazione Aumentata con Recupero Collaborativo
CoRAG: Collaborative Retrieval-Augmented Generation
April 2, 2025
Autori: Aashiq Muhamed, Mona Diab, Virginia Smith
cs.AI
Abstract
I modelli di Generazione Aumentata da Recupero (RAG) eccellono in compiti ad alta intensità di conoscenza, specialmente in contesti di apprendimento con pochi esempi. Introduciamo CoRAG, un framework che estende RAG a contesti collaborativi, in cui i clienti addestrano congiuntamente un modello condiviso utilizzando un archivio di passaggi collaborativo. Per valutare CoRAG, presentiamo CRAB, un benchmark per il question answering collaborativo omogeneo in dominio aperto. I nostri esperimenti dimostrano che CoRAG supera costantemente sia i metodi di apprendimento collaborativo parametrici che i modelli RAG addestrati localmente in scenari a bassa risorsa. Un'analisi più approfondita rivela l'importanza cruciale dei passaggi rilevanti all'interno dell'archivio condiviso, i sorprendenti benefici derivanti dall'incorporazione di passaggi irrilevanti e il potenziale impatto negativo dei negativi difficili sulle prestazioni. Ciò introduce una nuova considerazione nel RAG collaborativo: il bilanciamento tra lo sfruttamento di una base di conoscenza arricchita collettivamente e il rischio potenziale di incorporare passaggi dannosi provenienti da altri clienti. I nostri risultati sottolineano la fattibilità di CoRAG, evidenziando al contempo le principali sfide progettuali e promettenti direzioni per future ricerche.
English
Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive
tasks, especially under few-shot learning constraints. We introduce CoRAG, a
framework extending RAG to collaborative settings, where clients jointly train
a shared model using a collaborative passage store. To evaluate CoRAG, we
introduce CRAB, a benchmark for collaborative homogeneous open-domain question
answering. Our experiments demonstrate that CoRAG consistently outperforms both
parametric collaborative learning methods and locally trained RAG models in
low-resource scenarios. Further analysis reveals the critical importance of
relevant passages within the shared store, the surprising benefits of
incorporating irrelevant passages, and the potential for hard negatives to
negatively impact performance. This introduces a novel consideration in
collaborative RAG: the trade-off between leveraging a collectively enriched
knowledge base and the potential risk of incorporating detrimental passages
from other clients. Our findings underscore the viability of CoRAG, while also
highlighting key design challenges and promising avenues for future research.Summary
AI-Generated Summary