ChatPaper.aiChatPaper

MPBench: Ein umfassender Benchmark für multimodales Reasoning zur Identifikation von Prozessfehlern

MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification

March 16, 2025
Autoren: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang
cs.AI

Zusammenfassung

Das logische Denken ist eine wesentliche Fähigkeit für große Sprachmodelle (LLMs), um komplexe Aufgaben zu bewältigen, wobei die Identifizierung von Prozessfehlern entscheidend für die Verbesserung dieser Fähigkeit ist. Kürzlich wurden prozessbasierte Belohnungsmodelle (PRMs) vorgeschlagen, die schrittweise Belohnungen bieten, die das bestärkende Lernen und die Datenerzeugung während des Trainings erleichtern und LLMs während der Inferenz zu korrekten Schritten führen, wodurch die Genauigkeit des logischen Denkens verbessert wird. Allerdings konzentrieren sich bestehende Benchmarks für PRMs auf textbasierte Fehlererkennung und vernachlässigen andere Szenarien wie die Suche nach logischen Schlussfolgerungen. Um diese Lücke zu schließen, führen wir MPBench ein, einen umfassenden, multidisziplinären und multimodalen Benchmark, der systematisch die Effektivität von PRMs in verschiedenen Szenarien bewertet. MPBench verwendet drei Evaluierungsparadigmen, die jeweils eine spezifische Rolle von PRMs im logischen Denkprozess adressieren: (1) Schrittkorrektheit, die die Korrektheit jedes Zwischenschritts im logischen Denken bewertet; (2) Antwortaggregation, die mehrere Lösungen zusammenfasst und die beste auswählt; und (3) Suche nach dem logischen Denkprozess, die die Suche nach optimalen Denkschritten während der Inferenz leitet. Durch diese Paradigmen ermöglicht MPBench umfassende Bewertungen und liefert Einblicke in die Entwicklung multimodaler PRMs.
English
Reasoning is an essential capacity for large language models (LLMs) to address complex tasks, where the identification of process errors is vital for improving this ability. Recently, process-level reward models (PRMs) were proposed to provide step-wise rewards that facilitate reinforcement learning and data production during training and guide LLMs toward correct steps during inference, thereby improving reasoning accuracy. However, existing benchmarks of PRMs are text-based and focus on error detection, neglecting other scenarios like reasoning search. To address this gap, we introduce MPBench, a comprehensive, multi-task, multimodal benchmark designed to systematically assess the effectiveness of PRMs in diverse scenarios. MPBench employs three evaluation paradigms, each targeting a specific role of PRMs in the reasoning process: (1) Step Correctness, which assesses the correctness of each intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple solutions and selects the best one; and (3) Reasoning Process Search, which guides the search for optimal reasoning steps during inference. Through these paradigms, MPBench makes comprehensive evaluations and provides insights into the development of multimodal PRMs.

Summary

AI-Generated Summary

PDF92March 19, 2025