DynaMath: Ein dynamischer visueller Benchmark zur Bewertung der mathematischen Schlussfolgerungssicherheit von Sprach-Visions-Modellen
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
October 29, 2024
Autoren: Chengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang
cs.AI
Zusammenfassung
Die raschen Fortschritte bei Vision-Language-Modellen (VLMs) haben großes Potenzial gezeigt, um mathematische Denkaufgaben mit visuellem Kontext anzugehen. Im Gegensatz zu Menschen, die Lösungsschritte zu ähnlichen Problemen mit geringfügigen Änderungen zuverlässig anwenden können, haben wir festgestellt, dass führende VLMs wie GPT-4o in diesen Szenarien konsistent versagen können, was Einschränkungen in ihren mathematischen Denkfähigkeiten aufzeigt. In diesem Papier untersuchen wir die Robustheit mathematischer Denkfähigkeiten in VLMs und bewerten, wie gut diese Modelle unter verschiedenen Varianten derselben Fragestellung abschneiden, wie z.B. Änderungen in visuellen numerischen Werten oder Funktionsgraphen. Obwohl mehrere auf Vision basierende mathematische Benchmarks entwickelt wurden, um die Problemlösungsfähigkeiten von VLMs zu bewerten, enthalten diese Benchmarks nur statische Problemmengen und können die Robustheit mathematischer Denkfähigkeiten nicht einfach bewerten. Um diese Lücke zu schließen, stellen wir DynaMath vor, einen dynamischen visuellen Mathematik-Benchmark, der für eine eingehende Bewertung von VLMs konzipiert ist. DynaMath umfasst 501 hochwertige, mehrere Themen umfassende Ausgangsfragen, die jeweils als Python-Programm dargestellt sind. Diese Programme sind sorgfältig entworfen und annotiert, um die automatische Generierung einer viel größeren Menge konkreter Fragen zu ermöglichen, einschließlich vieler verschiedener Arten von visuellen und textuellen Variationen. DynaMath ermöglicht es uns, die Verallgemeinerungsfähigkeit von VLMs zu bewerten, indem wir ihre Leistung unter variierenden Eingangsbedingungen einer Ausgangsfrage bewerten. Wir haben 14 führende VLMs mit 5.010 generierten konkreten Fragen ausgewertet. Unsere Ergebnisse zeigen, dass die Modellgenauigkeit im Worst-Case, definiert als Prozentsatz der korrekt beantworteten Ausgangsfragen in allen 10 Varianten, signifikant niedriger ist als die Durchschnittsgenauigkeit. Unsere Analyse betont die Notwendigkeit, die Robustheit der Denkfähigkeiten von VLMs zu untersuchen, und DynaMath liefert wertvolle Erkenntnisse, um die Entwicklung zuverlässigerer Modelle für mathematisches Denken zu leiten.
English
The rapid advancements in Vision-Language Models (VLMs) have shown great
potential in tackling mathematical reasoning tasks that involve visual context.
Unlike humans who can reliably apply solution steps to similar problems with
minor modifications, we found that SOTA VLMs like GPT-4o can consistently fail
in these scenarios, revealing limitations in their mathematical reasoning
capabilities. In this paper, we investigate the mathematical reasoning
robustness in VLMs and evaluate how well these models perform under different
variants of the same question, such as changes in visual numerical values or
function graphs. While several vision-based math benchmarks have been developed
to assess VLMs' problem-solving capabilities, these benchmarks contain only
static sets of problems and cannot easily evaluate mathematical reasoning
robustness. To fill this gap, we introduce DynaMath, a dynamic visual math
benchmark designed for in-depth assessment of VLMs. DynaMath includes 501
high-quality, multi-topic seed questions, each represented as a Python program.
Those programs are carefully designed and annotated to enable the automatic
generation of a much larger set of concrete questions, including many different
types of visual and textual variations. DynaMath allows us to evaluate the
generalization ability of VLMs, by assessing their performance under varying
input conditions of a seed question. We evaluated 14 SOTA VLMs with 5,010
generated concrete questions. Our results show that the worst-case model
accuracy, defined as the percentage of correctly answered seed questions in all
10 variants, is significantly lower than the average-case accuracy. Our
analysis emphasizes the need to study the robustness of VLMs' reasoning
abilities, and DynaMath provides valuable insights to guide the development of
more reliable models for mathematical reasoning.Summary
AI-Generated Summary