ViLBench: Una Suite per la Modellazione delle Ricompense nei Processi Visione-Linguaggio

Abstract

I modelli di ricompensa supervisionati basati sul processo fungono da funzioni granulari che forniscono un feedback dettagliato passo-passo alle risposte del modello, facilitando una selezione efficace delle traiettorie di ragionamento per compiti complessi. Nonostante i loro vantaggi, la valutazione sui PRM rimane poco esplorata, specialmente nel dominio multimodale. Per colmare questa lacuna, questo articolo confronta innanzitutto gli attuali modelli linguistici di grandi dimensioni per la visione (VLLM) come due tipi di modelli di ricompensa: modelli di ricompensa sull'output (ORM) e modelli di ricompensa sul processo (PRM) su diversi benchmark visione-linguaggio, rivelando che né ORM né PRM superano costantemente in tutti i compiti, e che VLLM superiori non necessariamente producono prestazioni di ricompensa migliori. Per avanzare ulteriormente nella valutazione, introduciamo ViLBench, un benchmark visione-linguaggio progettato per richiedere segnali di ricompensa sul processo intensivi. In particolare, GPT-4o di OpenAI con Chain-of-Thought (CoT) raggiunge solo il 27,3% di accuratezza, indicando la sfida del benchmark per gli attuali VLLM. Infine, mostriamo preliminarmente una promettente via per colmare il divario tra VLLM generali e modelli di ricompensa -- raccogliendo 73,6K dati di ricompensa sul processo visione-linguaggio utilizzando un algoritmo di ricerca ad albero migliorato, il nostro modello da 3B è in grado di ottenere un miglioramento medio del 3,3% rispetto al CoT standard e fino al 2,5% rispetto alla sua controparte non addestrata su ViLBench selezionando le generazioni di OpenAI o1. Rilasciamo le implementazioni su https://ucsc-vlaa.github.io/ViLBench con il nostro codice, modello e dati.

English

Process-supervised reward models serve as a fine-grained function that provides detailed step-wise feedback to model responses, facilitating effective selection of reasoning trajectories for complex tasks. Despite its advantages, evaluation on PRMs remains less explored, especially in the multimodal domain. To address this gap, this paper first benchmarks current vision large language models (VLLMs) as two types of reward models: output reward models (ORMs) and process reward models (PRMs) on multiple vision-language benchmarks, which reveal that neither ORM nor PRM consistently outperforms across all tasks, and superior VLLMs do not necessarily yield better rewarding performance. To further advance evaluation, we introduce ViLBench, a vision-language benchmark designed to require intensive process reward signals. Notably, OpenAI's GPT-4o with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a promising pathway towards bridging the gap between general VLLMs and reward models -- by collecting 73.6K vision-language process reward data using an enhanced tree-search algorithm, our 3B model is able to achieve an average improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained counterpart on ViLBench by selecting OpenAI o1's generations. We release the implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model, and data.

ViLBench: Una Suite per la Modellazione delle Ricompense nei Processi Visione-Linguaggio

ViLBench: A Suite for Vision-Language Process Reward Modeling

Abstract

Summary

Support

Support