RAG-RewardBench: Benchmarking dei Modelli di Ricompensa nella Generazione Potenziata da Recupero per l'Allineamento delle Preferenze

Abstract

Nonostante i significativi progressi compiuti dai modelli linguistici potenziati da recupero esistenti (RALM) nel fornire risposte affidabili e basate su fonti affidabili, spesso trascurano un efficace allineamento con le preferenze umane. Nel processo di allineamento, i modelli di ricompensa (RMs) agiscono come un proxy cruciale per i valori umani per guidare l'ottimizzazione. Tuttavia, rimane poco chiaro come valutare e selezionare un RM affidabile per l'allineamento delle preferenze nei RALM. A questo scopo, proponiamo RAG-RewardBench, il primo benchmark per valutare gli RMs in contesti RAG. Innanzitutto, progettiamo quattro scenari cruciali e sfidanti specifici per RAG per valutare gli RMs, tra cui ragionamento multi-hop, citazione dettagliata, astensione appropriata e robustezza al conflitto. Successivamente, incorporiamo 18 sottoinsiemi RAG, sei recuperatori e 24 RALM per aumentare la diversità delle fonti di dati. Infine, adottiamo un approccio LLM-come-giudice per migliorare l'efficienza e l'efficacia dell'annotazione delle preferenze, mostrando una forte correlazione con le annotazioni umane. Sulla base di RAG-RewardBench, conduciamo una valutazione completa di 45 RMs e ne scopriamo i limiti negli scenari RAG. Inoltre, riveliamo che i RALM addestrati esistenti mostrano quasi nessun miglioramento nell'allineamento delle preferenze, evidenziando la necessità di un cambiamento verso un addestramento allineato alle preferenze. Rilasciamo il nostro benchmark e il codice pubblicamente su https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ per lavori futuri.

English

Despite the significant progress made by existing retrieval augmented language models (RALMs) in providing trustworthy responses and grounding in reliable sources, they often overlook effective alignment with human preferences. In the alignment process, reward models (RMs) act as a crucial proxy for human values to guide optimization. However, it remains unclear how to evaluate and select a reliable RM for preference alignment in RALMs. To this end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG settings. First, we design four crucial and challenging RAG-specific scenarios to assess RMs, including multi-hop reasoning, fine-grained citation, appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG subsets, six retrievers, and 24 RALMs to increase the diversity of data sources. Finally, we adopt an LLM-as-a-judge approach to improve preference annotation efficiency and effectiveness, exhibiting a strong correlation with human annotations. Based on the RAG-RewardBench, we conduct a comprehensive evaluation of 45 RMs and uncover their limitations in RAG scenarios. Additionally, we also reveal that existing trained RALMs show almost no improvement in preference alignment, highlighting the need for a shift towards preference-aligned training.We release our benchmark and code publicly at https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.

RAG-RewardBench: Benchmarking dei Modelli di Ricompensa nella Generazione Potenziata da Recupero per l'Allineamento delle Preferenze

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

Abstract

Summary

Support