VLRewardBench: un benchmark sfidante per i modelli generativi visione-linguaggio di ricompensa.
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
November 26, 2024
Autori: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
cs.AI
Abstract
I modelli di ricompensa generativa visione-linguaggio (VL-GenRM) svolgono un ruolo cruciale nell'allineare e valutare i sistemi AI multimodali, tuttavia la loro valutazione rimane ancora poco esplorata. I metodi attuali di valutazione si basano principalmente su etichette di preferenza annotate da AI provenienti da tradizionali compiti visione-linguaggio, che possono introdurre dei bias e spesso non riescono a sfidare efficacemente i modelli all'avanguardia. Per affrontare queste limitazioni, presentiamo VL-RewardBench, un benchmark completo che copre query multimodali generali, rilevamento di allucinazioni visive e compiti di ragionamento complessi. Attraverso il nostro pipeline di annotazione assistita da AI che combina la selezione del campione con la verifica umana, curiamo 1.250 esempi di alta qualità appositamente progettati per sondare le limitazioni del modello. Una valutazione completa su 16 dei principali grandi modelli visione-linguaggio dimostra l'efficacia di VL-RewardBench come banco di prova impegnativo, dove persino GPT-4o raggiunge solo il 65,4% di accuratezza, e modelli open-source all'avanguardia come Qwen2-VL-72B faticano a superare il semplice indovinare. È importante notare che le prestazioni su VL-RewardBench correlano fortemente (r di Pearson > 0,9) con l'accuratezza di MMMU-Pro utilizzando il campionamento Best-of-N con VL-GenRM. Gli esperimenti di analisi rivelano tre intuizioni critiche per migliorare i VL-GenRM: (i) i modelli falliscono principalmente nei compiti di percezione visiva di base piuttosto che nei compiti di ragionamento; (ii) i benefici della scalabilità al momento dell'inferenza variano drasticamente in base alla capacità del modello; e (iii) addestrare i VL-GenRM a imparare a giudicare potenzia notevolmente la capacità di giudizio (+14,7% di accuratezza per un VL-GenRM da 7B). Crediamo che VL-RewardBench insieme alle intuizioni sperimentali diventeranno una risorsa preziosa per far progredire i VL-GenRM.
English
Vision-language generative reward models (VL-GenRMs) play a crucial role in
aligning and evaluating multimodal AI systems, yet their own evaluation remains
under-explored. Current assessment methods primarily rely on AI-annotated
preference labels from traditional VL tasks, which can introduce biases and
often fail to effectively challenge state-of-the-art models. To address these
limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning
general multimodal queries, visual hallucination detection, and complex
reasoning tasks. Through our AI-assisted annotation pipeline combining sample
selection with human verification, we curate 1,250 high-quality examples
specifically designed to probe model limitations. Comprehensive evaluation
across 16 leading large vision-language models, demonstrates VL-RewardBench's
effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4%
accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B,
struggle to surpass random-guessing. Importantly, performance on VL-RewardBench
strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N
sampling with VL-GenRMs. Analysis experiments uncover three critical insights
for improving VL-GenRMs: (i) models predominantly fail at basic visual
perception tasks rather than reasoning tasks; (ii) inference-time scaling
benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to
learn to judge substantially boosts judgment capability (+14.7% accuracy for a
7B VL-GenRM). We believe VL-RewardBench along with the experimental insights
will become a valuable resource for advancing VL-GenRMs.Summary
AI-Generated Summary