RAG-RewardBench: Avaliação de Modelos de Recompensa na Geração Aprimorada por Recuperação para Alinhamento de Preferências

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

December 18, 2024
Autores: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI

Resumo

Apesar do progresso significativo alcançado pelos modelos de linguagem com recuperação aprimorada (RALMs) existentes em fornecer respostas confiáveis e fundamentadas em fontes confiáveis, muitas vezes eles negligenciam o alinhamento eficaz com as preferências humanas. No processo de alinhamento, os modelos de recompensa (RMs) atuam como um proxy crucial para os valores humanos orientarem a otimização. No entanto, permanece incerto como avaliar e selecionar um RM confiável para o alinhamento de preferências em RALMs. Para isso, propomos o RAG-RewardBench, o primeiro benchmark para avaliar RMs em configurações RAG. Primeiramente, projetamos quatro cenários cruciais e desafiadores específicos do RAG para avaliar RMs, incluindo raciocínio multi-etapa, citação detalhada, abstenção apropriada e robustez a conflitos. Em seguida, incorporamos 18 subconjuntos do RAG, seis recuperadores e 24 RALMs para aumentar a diversidade das fontes de dados. Por fim, adotamos uma abordagem de LLM-como-juiz para melhorar a eficiência e eficácia da anotação de preferências, exibindo uma forte correlação com as anotações humanas. Com base no RAG-RewardBench, realizamos uma avaliação abrangente de 45 RMs e revelamos suas limitações em cenários RAG. Além disso, também revelamos que os RALMs treinados existentes mostram quase nenhuma melhoria no alinhamento de preferências, destacando a necessidade de uma mudança em direção ao treinamento alinhado com preferências. Disponibilizamos nosso benchmark e código publicamente em https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ para trabalhos futuros.
English
Despite the significant progress made by existing retrieval augmented language models (RALMs) in providing trustworthy responses and grounding in reliable sources, they often overlook effective alignment with human preferences. In the alignment process, reward models (RMs) act as a crucial proxy for human values to guide optimization. However, it remains unclear how to evaluate and select a reliable RM for preference alignment in RALMs. To this end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG settings. First, we design four crucial and challenging RAG-specific scenarios to assess RMs, including multi-hop reasoning, fine-grained citation, appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG subsets, six retrievers, and 24 RALMs to increase the diversity of data sources. Finally, we adopt an LLM-as-a-judge approach to improve preference annotation efficiency and effectiveness, exhibiting a strong correlation with human annotations. Based on the RAG-RewardBench, we conduct a comprehensive evaluation of 45 RMs and uncover their limitations in RAG scenarios. Additionally, we also reveal that existing trained RALMs show almost no improvement in preference alignment, highlighting the need for a shift towards preference-aligned training.We release our benchmark and code publicly at https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.

Summary

AI-Generated Summary

PDF92December 19, 2024