DynaMath: Een Dynamische Visuele Maatstaf voor het Evalueren van de Robuustheid van Wiskundige Redenering van Visie-Taalmodellen
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
October 29, 2024
Auteurs: Chengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang
cs.AI
Samenvatting
De snelle vooruitgang in Vision-Language Modellen (VLM's) heeft een groot potentieel laten zien in het aanpakken van wiskundige redeneertaken die visuele context omvatten. In tegenstelling tot mensen die betrouwbaar oplossingsstappen kunnen toepassen op vergelijkbare problemen met kleine aanpassingen, hebben we ontdekt dat toonaangevende VLM's zoals GPT-4o consequent kunnen falen in deze scenario's, waarbij beperkingen in hun wiskundige redeneervermogen aan het licht komen. In dit artikel onderzoeken we de robuustheid van wiskundige redenering in VLM's en evalueren we hoe goed deze modellen presteren onder verschillende varianten van dezelfde vraag, zoals veranderingen in visuele numerieke waarden of functiegrafieken. Hoewel er verschillende op visie gebaseerde wiskundige benchmarks zijn ontwikkeld om de probleemoplossende capaciteiten van VLM's te beoordelen, bevatten deze benchmarks alleen statische sets van problemen en kunnen ze de robuustheid van wiskundige redenering niet gemakkelijk evalueren. Om deze lacune op te vullen, introduceren we DynaMath, een dynamische visuele wiskundige benchmark die is ontworpen voor een diepgaande beoordeling van VLM's. DynaMath bevat 501 hoogwaardige, multidisciplinaire basisvragen, elk gerepresenteerd als een Python-programma. Die programma's zijn zorgvuldig ontworpen en geannoteerd om de automatische generatie van een veel grotere set concrete vragen mogelijk te maken, inclusief veel verschillende soorten visuele en tekstuele variaties. DynaMath stelt ons in staat om het generalisatievermogen van VLM's te evalueren door hun prestaties te beoordelen onder variërende invoercondities van een basisvraag. We hebben 14 toonaangevende VLM's geëvalueerd met 5.010 gegenereerde concrete vragen. Onze resultaten tonen aan dat de modelnauwkeurigheid in het slechtste geval, gedefinieerd als het percentage correct beantwoorde basisvragen in alle 10 varianten, aanzienlijk lager is dan de nauwkeurigheid in het gemiddelde geval. Onze analyse benadrukt de noodzaak om de robuustheid van de redeneervaardigheden van VLM's te bestuderen, en DynaMath biedt waardevolle inzichten om de ontwikkeling van betrouwbaardere modellen voor wiskundige redenering te sturen.
English
The rapid advancements in Vision-Language Models (VLMs) have shown great
potential in tackling mathematical reasoning tasks that involve visual context.
Unlike humans who can reliably apply solution steps to similar problems with
minor modifications, we found that SOTA VLMs like GPT-4o can consistently fail
in these scenarios, revealing limitations in their mathematical reasoning
capabilities. In this paper, we investigate the mathematical reasoning
robustness in VLMs and evaluate how well these models perform under different
variants of the same question, such as changes in visual numerical values or
function graphs. While several vision-based math benchmarks have been developed
to assess VLMs' problem-solving capabilities, these benchmarks contain only
static sets of problems and cannot easily evaluate mathematical reasoning
robustness. To fill this gap, we introduce DynaMath, a dynamic visual math
benchmark designed for in-depth assessment of VLMs. DynaMath includes 501
high-quality, multi-topic seed questions, each represented as a Python program.
Those programs are carefully designed and annotated to enable the automatic
generation of a much larger set of concrete questions, including many different
types of visual and textual variations. DynaMath allows us to evaluate the
generalization ability of VLMs, by assessing their performance under varying
input conditions of a seed question. We evaluated 14 SOTA VLMs with 5,010
generated concrete questions. Our results show that the worst-case model
accuracy, defined as the percentage of correctly answered seed questions in all
10 variants, is significantly lower than the average-case accuracy. Our
analysis emphasizes the need to study the robustness of VLMs' reasoning
abilities, and DynaMath provides valuable insights to guide the development of
more reliable models for mathematical reasoning.Summary
AI-Generated Summary