ViLBench: Una Suite per la Modellazione delle Ricompense nei Processi Visione-Linguaggio
ViLBench: A Suite for Vision-Language Process Reward Modeling
March 26, 2025
Autori: Haoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie
cs.AI
Abstract
I modelli di ricompensa supervisionati basati sul processo fungono da funzioni granulari che forniscono un feedback dettagliato passo-passo alle risposte del modello, facilitando una selezione efficace delle traiettorie di ragionamento per compiti complessi. Nonostante i loro vantaggi, la valutazione sui PRM rimane poco esplorata, specialmente nel dominio multimodale. Per colmare questa lacuna, questo articolo confronta innanzitutto gli attuali modelli linguistici di grandi dimensioni per la visione (VLLM) come due tipi di modelli di ricompensa: modelli di ricompensa sull'output (ORM) e modelli di ricompensa sul processo (PRM) su diversi benchmark visione-linguaggio, rivelando che né ORM né PRM superano costantemente in tutti i compiti, e che VLLM superiori non necessariamente producono prestazioni di ricompensa migliori. Per avanzare ulteriormente nella valutazione, introduciamo ViLBench, un benchmark visione-linguaggio progettato per richiedere segnali di ricompensa sul processo intensivi. In particolare, GPT-4o di OpenAI con Chain-of-Thought (CoT) raggiunge solo il 27,3% di accuratezza, indicando la sfida del benchmark per gli attuali VLLM. Infine, mostriamo preliminarmente una promettente via per colmare il divario tra VLLM generali e modelli di ricompensa -- raccogliendo 73,6K dati di ricompensa sul processo visione-linguaggio utilizzando un algoritmo di ricerca ad albero migliorato, il nostro modello da 3B è in grado di ottenere un miglioramento medio del 3,3% rispetto al CoT standard e fino al 2,5% rispetto alla sua controparte non addestrata su ViLBench selezionando le generazioni di OpenAI o1. Rilasciamo le implementazioni su https://ucsc-vlaa.github.io/ViLBench con il nostro codice, modello e dati.
English
Process-supervised reward models serve as a fine-grained function that
provides detailed step-wise feedback to model responses, facilitating effective
selection of reasoning trajectories for complex tasks. Despite its advantages,
evaluation on PRMs remains less explored, especially in the multimodal domain.
To address this gap, this paper first benchmarks current vision large language
models (VLLMs) as two types of reward models: output reward models (ORMs) and
process reward models (PRMs) on multiple vision-language benchmarks, which
reveal that neither ORM nor PRM consistently outperforms across all tasks, and
superior VLLMs do not necessarily yield better rewarding performance. To
further advance evaluation, we introduce ViLBench, a vision-language benchmark
designed to require intensive process reward signals. Notably, OpenAI's GPT-4o
with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the
benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a
promising pathway towards bridging the gap between general VLLMs and reward
models -- by collecting 73.6K vision-language process reward data using an
enhanced tree-search algorithm, our 3B model is able to achieve an average
improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained
counterpart on ViLBench by selecting OpenAI o1's generations. We release the
implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model,
and data.Summary
AI-Generated Summary