다국어 환경에서 보상 모델을 평가하는 M-RewardBench

M-RewardBench: Evaluating Reward Models in Multilingual Settings

October 20, 2024
저자: Srishti Gureja, Lester James V. Miranda, Shayekh Bin Islam, Rishabh Maheshwary, Drishti Sharma, Gusti Winata, Nathan Lambert, Sebastian Ruder, Sara Hooker, Marzieh Fadaee
cs.AI

초록

보상 모델(RMs)은 오늘날 LLMs의 최첨단 성능을 이끌어내는데에 기여하며 인간 피드백을 언어 모델링 과정에 통합할 수 있게 합니다. 그러나 RMs은 주로 영어로 훈련되고 평가되며, 다국어 환경에서의 능력은 대부분 미연구 상태입니다. 본 연구에서는 다국어 환경에서 여러 보상 모델을 체계적으로 평가합니다. 우리는 먼저 23가지 유형학적으로 다양한 언어를 위한 2.87k 선호도 인스턴스로 이루어진 M-RewardBench라는 독특한 다국어 RM 평가 벤치마크를 구축합니다. 이 벤치마크는 RMs의 채팅, 안전, 추론 및 번역 능력을 테스트합니다. 그런 다음, 우리는 다양한 보상 모델을 M-RewardBench에서 엄격하게 평가하여 다양한 언어에 걸쳐 그들의 성능에 대한 새로운 통찰력을 제공합니다. 우리는 영어와 비영어 언어 간에 RMs의 성능 차이를 확인하고, 한 언어에서 다른 언어로 RM 선호도가 상당히 변할 수 있다는 것을 보여줍니다. 또한 다양한 다국어 측면이 RM 성능에 어떻게 영향을 미치는지에 대한 여러 발견을 제시합니다. 구체적으로, 번역 품질이 향상됨에 따라 RMs의 성능이 향상되는 것을 보여줍니다. 마찬가지로, 고자원 언어에 대해 모델이 더 나은 성능을 발휘한다는 것을 입증합니다. 우리는 본 연구에서 M-RewardBench 데이터셋과 코드베이스를 공개하여 다국어 환경에서 RM 평가를 더 잘 이해할 수 있도록 지원합니다.
English
Reward models (RMs) have driven the state-of-the-art performance of LLMs today by enabling the integration of human feedback into the language modeling process. However, RMs are primarily trained and evaluated in English, and their capabilities in multilingual settings remain largely understudied. In this work, we conduct a systematic evaluation of several reward models in multilingual settings. We first construct the first-of-its-kind multilingual RM evaluation benchmark, M-RewardBench, consisting of 2.87k preference instances for 23 typologically diverse languages, that tests the chat, safety, reasoning, and translation capabilities of RMs. We then rigorously evaluate a wide range of reward models on M-RewardBench, offering fresh insights into their performance across diverse languages. We identify a significant gap in RMs' performances between English and non-English languages and show that RM preferences can change substantially from one language to another. We also present several findings on how different multilingual aspects impact RM performance. Specifically, we show that the performance of RMs is improved with improved translation quality. Similarly, we demonstrate that the models exhibit better performance for high-resource languages. We release M-RewardBench dataset and the codebase in this study to facilitate a better understanding of RM evaluation in multilingual settings.

Summary

AI-Generated Summary

PDF103November 16, 2024