ChatPaper.aiChatPaper

VLRewardBench: 시각-언어 생성 보상 모델을 위한 도전적인 벤치마크

VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

November 26, 2024
저자: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
cs.AI

초록

비전-언어 생성 보상 모델(VL-GenRM)은 다중 모달 AI 시스템의 조정과 평가에 중요한 역할을 합니다. 그러나 그들 자체의 평가는 아직 충분히 탐구되지 않았습니다. 현재의 평가 방법은 주로 전통적인 VL 작업에서의 AI 주석화된 선호도 레이블에 의존하며, 이는 편향을 도입하고 최첨단 모델을 효과적으로 도전하지 못할 수 있습니다. 이러한 한계를 극복하기 위해 우리는 VL-RewardBench를 소개합니다. 이는 일반적인 다중 모달 쿼리, 시각 환각 탐지 및 복잡한 추론 작업을 포함한 포괄적인 벤치마크입니다. 샘플 선택과 인간 검증을 결합한 AI 지원 주석화 파이프라인을 통해 우리는 모델의 한계를 조사하기 위해 특별히 설계된 1,250개의 고품질 예제를 선별합니다. 16개의 주요 대형 비전-언어 모델에 걸쳐 철저한 평가를 통해 VL-RewardBench의 효과적인 어려운 테스트베드로서의 효과를 입증합니다. 심지어 GPT-4o도 65.4%의 정확도만 달성하며 Qwen2-VL-72B와 같은 최첨단 오픈 소스 모델은 무작위 추측을 넘어서기 어려워합니다. 중요한 점은 VL-RewardBench에서의 성능이 Best-of-N 샘플링을 사용한 MMMU-Pro 정확도와 강한 상관 관계가 있으며(Pearson의 r > 0.9), VL-GenRM을 사용하여 판단 능력을 크게 향상시키는 것이 중요합니다. 기본 시각 인식 작업보다는 추론 작업에서 주로 실패하는 것이 모델의 한계를 개선하는 데 중요한 통찰을 제공합니다; (ii) 추론 시간 스케일링 혜택은 모델 용량에 따라 극명하게 다릅니다; 그리고 (iii) 판단 학습을 훈련시키는 것이 판단 능력을 크게 향상시킵니다(7B VL-GenRM의 경우 +14.7% 정확도). VL-RewardBench와 실험적 통찰력은 VL-GenRM을 발전시키는 데 중요한 자원이 될 것으로 믿습니다.
English
Vision-language generative reward models (VL-GenRMs) play a crucial role in aligning and evaluating multimodal AI systems, yet their own evaluation remains under-explored. Current assessment methods primarily rely on AI-annotated preference labels from traditional VL tasks, which can introduce biases and often fail to effectively challenge state-of-the-art models. To address these limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning general multimodal queries, visual hallucination detection, and complex reasoning tasks. Through our AI-assisted annotation pipeline combining sample selection with human verification, we curate 1,250 high-quality examples specifically designed to probe model limitations. Comprehensive evaluation across 16 leading large vision-language models, demonstrates VL-RewardBench's effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4% accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B, struggle to surpass random-guessing. Importantly, performance on VL-RewardBench strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N sampling with VL-GenRMs. Analysis experiments uncover three critical insights for improving VL-GenRMs: (i) models predominantly fail at basic visual perception tasks rather than reasoning tasks; (ii) inference-time scaling benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to learn to judge substantially boosts judgment capability (+14.7% accuracy for a 7B VL-GenRM). We believe VL-RewardBench along with the experimental insights will become a valuable resource for advancing VL-GenRMs.

Summary

AI-Generated Summary

PDF112November 27, 2024