ViLBench: Eine Suite für die Modellierung von Belohnungen in der visuell-sprachlichen Verarbeitung
ViLBench: A Suite for Vision-Language Process Reward Modeling
March 26, 2025
Autoren: Haoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie
cs.AI
Zusammenfassung
Prozessüberwachte Belohnungsmodelle dienen als fein abgestimmte Funktion, die detailliertes, schrittweises Feedback zu Modellantworten liefert und so die effektive Auswahl von Argumentationspfaden für komplexe Aufgaben erleichtert. Trotz ihrer Vorteile bleibt die Evaluierung von PRMs (Process Reward Models) weitgehend unerforscht, insbesondere im multimodalen Bereich. Um diese Lücke zu schließen, vergleicht diese Arbeit zunächst aktuelle visuelle Large Language Models (VLLMs) als zwei Arten von Belohnungsmodellen: Output Reward Models (ORMs) und Process Reward Models (PRMs) auf mehreren Vision-Language-Benchmarks. Dabei zeigt sich, dass weder ORM noch PRM über alle Aufgaben hinweg konsistent überlegen sind und dass überlegene VLLMs nicht zwangsläufig eine bessere Belohnungsleistung erbringen. Um die Evaluierung weiter voranzutreiben, führen wir ViLBench ein, einen Vision-Language-Benchmark, der intensive Prozessbelohnungssignale erfordert. Bemerkenswerterweise erreicht OpenAI's GPT-4o mit Chain-of-Thought (CoT) nur eine Genauigkeit von 27,3 %, was die Herausforderung des Benchmarks für aktuelle VLLMs unterstreicht. Schließlich zeigen wir vorläufig einen vielversprechenden Weg auf, um die Lücke zwischen allgemeinen VLLMs und Belohnungsmodellen zu überbrücken – durch die Sammlung von 73,6K Vision-Language-Prozessbelohnungsdaten mithilfe eines verbesserten Baum-Such-Algorithmus erreicht unser 3B-Modell eine durchschnittliche Verbesserung von 3,3 % gegenüber dem Standard-CoT und bis zu 2,5 % im Vergleich zu seiner untrainierten Version auf ViLBench, indem es die Generierungen von OpenAI o1 auswählt. Wir veröffentlichen die Implementierungen unter https://ucsc-vlaa.github.io/ViLBench mit unserem Code, Modell und den Daten.
English
Process-supervised reward models serve as a fine-grained function that
provides detailed step-wise feedback to model responses, facilitating effective
selection of reasoning trajectories for complex tasks. Despite its advantages,
evaluation on PRMs remains less explored, especially in the multimodal domain.
To address this gap, this paper first benchmarks current vision large language
models (VLLMs) as two types of reward models: output reward models (ORMs) and
process reward models (PRMs) on multiple vision-language benchmarks, which
reveal that neither ORM nor PRM consistently outperforms across all tasks, and
superior VLLMs do not necessarily yield better rewarding performance. To
further advance evaluation, we introduce ViLBench, a vision-language benchmark
designed to require intensive process reward signals. Notably, OpenAI's GPT-4o
with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the
benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a
promising pathway towards bridging the gap between general VLLMs and reward
models -- by collecting 73.6K vision-language process reward data using an
enhanced tree-search algorithm, our 3B model is able to achieve an average
improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained
counterpart on ViLBench by selecting OpenAI o1's generations. We release the
implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model,
and data.Summary
AI-Generated Summary