ChatPaper.aiChatPaper

VisualPRM: Ein effektives Prozess-Belohnungsmodell für multimodales Denken

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

March 13, 2025
Autoren: Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI

Zusammenfassung

Wir stellen VisualPRM vor, ein fortschrittliches multimodales Process Reward Model (PRM) mit 8 Milliarden Parametern, das die Fähigkeiten bestehender Multimodaler Großer Sprachmodelle (MLLMs) in Bezug auf das logische Denken über verschiedene Modellgrößen und -familien hinweg durch Best-of-N (BoN)-Evaluierungsstrategien verbessert. Konkret steigert unser Modell die Leistung beim logischen Denken von drei Arten von MLLMs und vier verschiedenen Modellgrößen. Selbst bei der Anwendung auf das hochleistungsfähige InternVL2.5-78B erzielt es eine Verbesserung von 5,9 Punkten über sieben multimodale Denkbenchmarks hinweg. Experimentelle Ergebnisse zeigen, dass unser Modell im Vergleich zu Outcome Reward Models und Self-Consistency während der BoN-Evaluierung eine überlegene Leistung aufweist. Um das Training multimodaler PRMs zu erleichtern, haben wir einen multimodalen Prozessüberwachungsdatensatz, VisualPRM400K, mithilfe einer automatisierten Datenpipeline erstellt. Für die Evaluierung multimodaler PRMs schlagen wir VisualProcessBench vor, einen Benchmark mit menschlich annotierten schrittweisen Korrektheitslabels, um die Fähigkeiten von PRMs zur Erkennung fehlerhafter Schritte in multimodalen Denkaufgaben zu messen. Wir hoffen, dass unsere Arbeit zukünftige Forschungen inspirieren und zur Entwicklung von MLLMs beitragen kann. Unser Modell, die Daten und der Benchmark sind unter https://internvl.github.io/blog/2025-03-13-VisualPRM/ veröffentlicht.
English
We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM) with 8B parameters, which improves the reasoning abilities of existing Multimodal Large Language Models (MLLMs) across different model scales and families with Best-of-N (BoN) evaluation strategies. Specifically, our model improves the reasoning performance of three types of MLLMs and four different model scales. Even when applied to the highly capable InternVL2.5-78B, it achieves a 5.9-point improvement across seven multimodal reasoning benchmarks. Experimental results show that our model exhibits superior performance compared to Outcome Reward Models and Self-Consistency during BoN evaluation. To facilitate the training of multimodal PRMs, we construct a multimodal process supervision dataset VisualPRM400K using an automated data pipeline. For the evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with human-annotated step-wise correctness labels, to measure the abilities of PRMs to detect erroneous steps in multimodal reasoning tasks. We hope that our work can inspire more future research and contribute to the development of MLLMs. Our model, data, and benchmark are released in https://internvl.github.io/blog/2025-03-13-VisualPRM/.

Summary

AI-Generated Summary

PDF343March 14, 2025