멀티모달 리워드벤치: 비전-언어 모델을 위한 보상 모델의 종합적 평가
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models
February 20, 2025
저자: Michihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad
cs.AI
초록
보상 모델은 출력 품질을 평가하여 인간의 선호도와 정렬할 수 있도록 함으로써 시각-언어 모델(VLMs) 훈련에서 핵심적인 역할을 수행합니다. 그 중요성에도 불구하고, 연구 커뮤니티는 VLM의 다중모달 보상 모델을 평가하기 위한 포괄적인 공개 벤치마크가 부족한 실정입니다. 이러한 격차를 해소하기 위해, 우리는 일반 정확성, 선호도, 지식, 추론, 안전성, 시각 질의응답 등 6개 영역을 아우르는 전문가 주석이 달린 벤치마크인 Multimodal RewardBench를 소개합니다. 우리의 데이터셋은 다양한 VLM에서 수집된 5,211개의 (프롬프트, 선택된 응답, 거부된 응답) 삼중항으로 구성되어 있습니다. 다양한 VLM 판단 모델을 평가한 결과, 최고 성능을 보인 Gemini 1.5 Pro와 Claude 3.5 Sonnet조차도 전체 정확도가 72%에 그쳤습니다. 특히, 대부분의 모델이 추론 및 안전성 영역에서 어려움을 겪는 것으로 나타났습니다. 이러한 결과는 Multimodal RewardBench가 여러 영역에서 보상 모델 개발을 진전시키기 위한 도전적인 테스트베드를 제공함을 시사합니다. 우리는 이 벤치마크를 https://github.com/facebookresearch/multimodal_rewardbench에서 공개합니다.
English
Reward models play an essential role in training vision-language models
(VLMs) by assessing output quality to enable aligning with human preferences.
Despite their importance, the research community lacks comprehensive open
benchmarks for evaluating multimodal reward models in VLMs. To address this
gap, we introduce Multimodal RewardBench, an expert-annotated benchmark
covering six domains: general correctness, preference, knowledge, reasoning,
safety, and visual question-answering. Our dataset comprises 5,211 annotated
(prompt, chosen response, rejected response) triplets collected from various
VLMs. In evaluating a range of VLM judges, we find that even the top-performing
models, Gemini 1.5 Pro and Claude 3.5 Sonnet, achieve only 72% overall
accuracy. Notably, most models struggle in the reasoning and safety domains.
These findings suggest that Multimodal RewardBench offers a challenging testbed
for advancing reward model development across multiple domains. We release the
benchmark at https://github.com/facebookresearch/multimodal_rewardbench.Summary
AI-Generated Summary