DynaMath: un benchmark visivo dinamico per valutare la robustezza del ragionamento matematico dei modelli di linguaggio visivo
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
October 29, 2024
Autori: Chengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang
cs.AI
Abstract
I rapidi progressi nei Modelli Visione-Linguaggio (VLM) hanno mostrato un grande potenziale nel affrontare compiti di ragionamento matematico che coinvolgono contesti visivi. A differenza degli esseri umani che possono applicare in modo affidabile passaggi di soluzione a problemi simili con modifiche minori, abbiamo scoperto che i VLM di ultima generazione come GPT-4o possono fallire in modo consistente in questi scenari, rivelando limitazioni nelle loro capacità di ragionamento matematico. In questo articolo, investighiamo la robustezza del ragionamento matematico nei VLM e valutiamo quanto bene questi modelli si comportano sotto diverse varianti della stessa domanda, come cambiamenti nei valori numerici visivi o nei grafici di funzioni. Mentre sono stati sviluppati diversi benchmark matematici basati sulla visione per valutare le capacità di risoluzione dei problemi dei VLM, questi benchmark contengono solo insiemi statici di problemi e non possono valutare facilmente la robustezza del ragionamento matematico. Per colmare questa lacuna, presentiamo DynaMath, un benchmark matematico visivo dinamico progettato per una valutazione approfondita dei VLM. DynaMath include 501 domande seed di alta qualità su vari argomenti, ognuna rappresentata come un programma Python. Questi programmi sono attentamente progettati e annotati per consentire la generazione automatica di un insieme molto più ampio di domande concrete, inclusi molti tipi diversi di variazioni visive e testuali. DynaMath ci consente di valutare la capacità di generalizzazione dei VLM, valutando le loro prestazioni in condizioni di input variabili di una domanda seed. Abbiamo valutato 14 VLM di ultima generazione con 5.010 domande concrete generate. I nostri risultati mostrano che l'accuratezza del modello nel caso peggiore, definita come la percentuale di domande seed risposte correttamente in tutte e 10 le varianti, è significativamente più bassa rispetto all'accuratezza nel caso medio. La nostra analisi sottolinea la necessità di studiare la robustezza delle capacità di ragionamento dei VLM, e DynaMath fornisce preziose intuizioni per guidare lo sviluppo di modelli più affidabili per il ragionamento matematico.
English
The rapid advancements in Vision-Language Models (VLMs) have shown great
potential in tackling mathematical reasoning tasks that involve visual context.
Unlike humans who can reliably apply solution steps to similar problems with
minor modifications, we found that SOTA VLMs like GPT-4o can consistently fail
in these scenarios, revealing limitations in their mathematical reasoning
capabilities. In this paper, we investigate the mathematical reasoning
robustness in VLMs and evaluate how well these models perform under different
variants of the same question, such as changes in visual numerical values or
function graphs. While several vision-based math benchmarks have been developed
to assess VLMs' problem-solving capabilities, these benchmarks contain only
static sets of problems and cannot easily evaluate mathematical reasoning
robustness. To fill this gap, we introduce DynaMath, a dynamic visual math
benchmark designed for in-depth assessment of VLMs. DynaMath includes 501
high-quality, multi-topic seed questions, each represented as a Python program.
Those programs are carefully designed and annotated to enable the automatic
generation of a much larger set of concrete questions, including many different
types of visual and textual variations. DynaMath allows us to evaluate the
generalization ability of VLMs, by assessing their performance under varying
input conditions of a seed question. We evaluated 14 SOTA VLMs with 5,010
generated concrete questions. Our results show that the worst-case model
accuracy, defined as the percentage of correctly answered seed questions in all
10 variants, is significantly lower than the average-case accuracy. Our
analysis emphasizes the need to study the robustness of VLMs' reasoning
abilities, and DynaMath provides valuable insights to guide the development of
more reliable models for mathematical reasoning.Summary
AI-Generated Summary