RAG-RewardBench: Avaliação de Modelos de Recompensa na Geração Aprimorada por Recuperação para Alinhamento de Preferências
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment
December 18, 2024
Autores: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Resumo
Apesar do progresso significativo alcançado pelos modelos de linguagem com recuperação aprimorada (RALMs) existentes em fornecer respostas confiáveis e fundamentadas em fontes confiáveis, muitas vezes eles negligenciam o alinhamento eficaz com as preferências humanas. No processo de alinhamento, os modelos de recompensa (RMs) atuam como um proxy crucial para os valores humanos orientarem a otimização. No entanto, permanece incerto como avaliar e selecionar um RM confiável para o alinhamento de preferências em RALMs. Para isso, propomos o RAG-RewardBench, o primeiro benchmark para avaliar RMs em configurações RAG. Primeiramente, projetamos quatro cenários cruciais e desafiadores específicos do RAG para avaliar RMs, incluindo raciocínio multi-etapa, citação detalhada, abstenção apropriada e robustez a conflitos. Em seguida, incorporamos 18 subconjuntos do RAG, seis recuperadores e 24 RALMs para aumentar a diversidade das fontes de dados. Por fim, adotamos uma abordagem de LLM-como-juiz para melhorar a eficiência e eficácia da anotação de preferências, exibindo uma forte correlação com as anotações humanas. Com base no RAG-RewardBench, realizamos uma avaliação abrangente de 45 RMs e revelamos suas limitações em cenários RAG. Além disso, também revelamos que os RALMs treinados existentes mostram quase nenhuma melhoria no alinhamento de preferências, destacando a necessidade de uma mudança em direção ao treinamento alinhado com preferências. Disponibilizamos nosso benchmark e código publicamente em https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ para trabalhos futuros.
English
Despite the significant progress made by existing retrieval augmented
language models (RALMs) in providing trustworthy responses and grounding in
reliable sources, they often overlook effective alignment with human
preferences. In the alignment process, reward models (RMs) act as a crucial
proxy for human values to guide optimization. However, it remains unclear how
to evaluate and select a reliable RM for preference alignment in RALMs. To this
end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG
settings. First, we design four crucial and challenging RAG-specific scenarios
to assess RMs, including multi-hop reasoning, fine-grained citation,
appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG
subsets, six retrievers, and 24 RALMs to increase the diversity of data
sources. Finally, we adopt an LLM-as-a-judge approach to improve preference
annotation efficiency and effectiveness, exhibiting a strong correlation with
human annotations. Based on the RAG-RewardBench, we conduct a comprehensive
evaluation of 45 RMs and uncover their limitations in RAG scenarios.
Additionally, we also reveal that existing trained RALMs show almost no
improvement in preference alignment, highlighting the need for a shift towards
preference-aligned training.We release our benchmark and code publicly at
https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.Summary
AI-Generated Summary