RAG-RewardBench: Benchmarking dei Modelli di Ricompensa nella Generazione Potenziata da Recupero per l'Allineamento delle Preferenze
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment
December 18, 2024
Autori: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Abstract
Nonostante i significativi progressi compiuti dai modelli linguistici potenziati da recupero esistenti (RALM) nel fornire risposte affidabili e basate su fonti affidabili, spesso trascurano un efficace allineamento con le preferenze umane. Nel processo di allineamento, i modelli di ricompensa (RMs) agiscono come un proxy cruciale per i valori umani per guidare l'ottimizzazione. Tuttavia, rimane poco chiaro come valutare e selezionare un RM affidabile per l'allineamento delle preferenze nei RALM. A questo scopo, proponiamo RAG-RewardBench, il primo benchmark per valutare gli RMs in contesti RAG. Innanzitutto, progettiamo quattro scenari cruciali e sfidanti specifici per RAG per valutare gli RMs, tra cui ragionamento multi-hop, citazione dettagliata, astensione appropriata e robustezza al conflitto. Successivamente, incorporiamo 18 sottoinsiemi RAG, sei recuperatori e 24 RALM per aumentare la diversità delle fonti di dati. Infine, adottiamo un approccio LLM-come-giudice per migliorare l'efficienza e l'efficacia dell'annotazione delle preferenze, mostrando una forte correlazione con le annotazioni umane. Sulla base di RAG-RewardBench, conduciamo una valutazione completa di 45 RMs e ne scopriamo i limiti negli scenari RAG. Inoltre, riveliamo che i RALM addestrati esistenti mostrano quasi nessun miglioramento nell'allineamento delle preferenze, evidenziando la necessità di un cambiamento verso un addestramento allineato alle preferenze. Rilasciamo il nostro benchmark e il codice pubblicamente su https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ per lavori futuri.
English
Despite the significant progress made by existing retrieval augmented
language models (RALMs) in providing trustworthy responses and grounding in
reliable sources, they often overlook effective alignment with human
preferences. In the alignment process, reward models (RMs) act as a crucial
proxy for human values to guide optimization. However, it remains unclear how
to evaluate and select a reliable RM for preference alignment in RALMs. To this
end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG
settings. First, we design four crucial and challenging RAG-specific scenarios
to assess RMs, including multi-hop reasoning, fine-grained citation,
appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG
subsets, six retrievers, and 24 RALMs to increase the diversity of data
sources. Finally, we adopt an LLM-as-a-judge approach to improve preference
annotation efficiency and effectiveness, exhibiting a strong correlation with
human annotations. Based on the RAG-RewardBench, we conduct a comprehensive
evaluation of 45 RMs and uncover their limitations in RAG scenarios.
Additionally, we also reveal that existing trained RALMs show almost no
improvement in preference alignment, highlighting the need for a shift towards
preference-aligned training.We release our benchmark and code publicly at
https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.Summary
AI-Generated Summary