ProJudge: Ein Multi-Modaler Multi-Disziplin-Benchmark und Instruktions-Tuning-Datensatz für MLLM-basierte Prozessbewertungen
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
March 9, 2025
Autoren: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI
Zusammenfassung
Da multimodale große Sprachmodelle (MLLMs) häufig Fehler bei der Lösung wissenschaftlicher Probleme aufweisen, ist die Bewertung der Gültigkeit ihrer Denkprozesse entscheidend, um Zuverlässigkeit sicherzustellen und feinkörnige Schwächen des Modells aufzudecken. Da menschliche Bewertungen mühsam und kostspielig sind, hat sich die Verwendung von MLLMs als automatisierte Prozessbewerter zu einer gängigen Praxis entwickelt. Die Zuverlässigkeit dieser modellbasierten Bewerter bleibt jedoch ungewiss. Um dies zu adressieren, führen wir ProJudgeBench ein, den ersten umfassenden Benchmark, der speziell für die Bewertung der Fähigkeiten von MLLM-basierten Prozessbewertern entwickelt wurde. ProJudgeBench umfasst 2.400 Testfälle und 50.118 schrittweise Labels, die vier wissenschaftliche Disziplinen mit unterschiedlichen Schwierigkeitsgraden und multimodalen Inhalten abdecken. In ProJudgeBench wird jeder Schritt von menschlichen Experten sorgfältig hinsichtlich Korrektheit, Fehlertyp und Erklärung annotiert, was eine systematische Bewertung der Fähigkeiten der Bewerter ermöglicht, Fehler zu erkennen, zu klassifizieren und zu diagnostizieren. Die Auswertung auf ProJudgeBench zeigt eine erhebliche Leistungslücke zwischen Open-Source- und proprietären Modellen. Um diese Lücke zu schließen, schlagen wir weiterhin ProJudge-173k vor, einen groß angelegten Instruktions-Tuning-Datensatz, und eine dynamische Dual-Phase-Feinabstimmungsstrategie, die Modelle dazu anregt, explizit durch Problemlösung zu denken, bevor sie Lösungen bewerten. Beide Beiträge verbessern die Prozessbewertungsfähigkeiten von Open-Source-Modellen erheblich. Alle Ressourcen werden veröffentlicht, um zukünftige Forschung zu zuverlässiger multimodaler Prozessbewertung zu fördern.
English
As multi-modal large language models (MLLMs) frequently exhibit errors when
solving scientific problems, evaluating the validity of their reasoning
processes is critical for ensuring reliability and uncovering fine-grained
model weaknesses. Since human evaluation is laborious and costly, prompting
MLLMs as automated process judges has become a common practice. However, the
reliability of these model-based judges remains uncertain. To address this, we
introduce ProJudgeBench, the first comprehensive benchmark specifically
designed for evaluating abilities of MLLM-based process judges. ProJudgeBench
comprises 2,400 test cases and 50,118 step-level labels, spanning four
scientific disciplines with diverse difficulty levels and multi-modal content.
In ProJudgeBench, each step is meticulously annotated by human experts for
correctness, error type, and explanation, enabling a systematic evaluation of
judges' capabilities to detect, classify and diagnose errors. Evaluation on
ProJudgeBench reveals a significant performance gap between open-source and
proprietary models. To bridge this gap, we further propose ProJudge-173k, a
large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning
strategy that encourages models to explicitly reason through problem-solving
before assessing solutions. Both contributions significantly enhance the
process evaluation capabilities of open-source models. All the resources will
be released to foster future research of reliable multi-modal process
evaluation.Summary
AI-Generated Summary