DynaMath : un banc d'essai visuel dynamique pour évaluer la robustesse du raisonnement mathématique des modèles de langage vision.
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
October 29, 2024
Auteurs: Chengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang
cs.AI
Résumé
Les avancées rapides dans les Modèles Vision-Langage (VLMs) ont montré un grand potentiel pour aborder les tâches de raisonnement mathématique impliquant un contexte visuel. Contrairement aux humains qui peuvent appliquer de manière fiable des étapes de solution à des problèmes similaires avec de légères modifications, nous avons constaté que les VLMs de pointe comme GPT-4o peuvent régulièrement échouer dans ces scénarios, révélant des limitations dans leurs capacités de raisonnement mathématique. Dans cet article, nous étudions la robustesse du raisonnement mathématique dans les VLMs et évaluons la performance de ces modèles sous différentes variantes de la même question, telles que des changements dans les valeurs numériques visuelles ou les graphiques de fonctions. Alors que plusieurs référentiels mathématiques basés sur la vision ont été développés pour évaluer les capacités de résolution de problèmes des VLMs, ces référentiels ne contiennent que des ensembles statiques de problèmes et ne peuvent pas évaluer facilement la robustesse du raisonnement mathématique. Pour combler cette lacune, nous introduisons DynaMath, un référentiel de mathématiques visuelles dynamique conçu pour une évaluation approfondie des VLMs. DynaMath comprend 501 questions de base de haute qualité, multi-thématiques, chacune représentée sous forme de programme Python. Ces programmes sont soigneusement conçus et annotés pour permettre la génération automatique d'un ensemble beaucoup plus large de questions concrètes, comprenant de nombreux types de variations visuelles et textuelles. DynaMath nous permet d'évaluer la capacité de généralisation des VLMs, en évaluant leur performance sous des conditions d'entrée variables d'une question de base. Nous avons évalué 14 VLMs de pointe avec 5 010 questions concrètes générées. Nos résultats montrent que la précision du modèle dans le pire des cas, définie comme le pourcentage de questions de base correctement répondues dans toutes les 10 variantes, est significativement plus basse que la précision dans le cas moyen. Notre analyse souligne la nécessité d'étudier la robustesse des capacités de raisonnement des VLMs, et DynaMath fournit des perspectives précieuses pour guider le développement de modèles plus fiables pour le raisonnement mathématique.
English
The rapid advancements in Vision-Language Models (VLMs) have shown great
potential in tackling mathematical reasoning tasks that involve visual context.
Unlike humans who can reliably apply solution steps to similar problems with
minor modifications, we found that SOTA VLMs like GPT-4o can consistently fail
in these scenarios, revealing limitations in their mathematical reasoning
capabilities. In this paper, we investigate the mathematical reasoning
robustness in VLMs and evaluate how well these models perform under different
variants of the same question, such as changes in visual numerical values or
function graphs. While several vision-based math benchmarks have been developed
to assess VLMs' problem-solving capabilities, these benchmarks contain only
static sets of problems and cannot easily evaluate mathematical reasoning
robustness. To fill this gap, we introduce DynaMath, a dynamic visual math
benchmark designed for in-depth assessment of VLMs. DynaMath includes 501
high-quality, multi-topic seed questions, each represented as a Python program.
Those programs are carefully designed and annotated to enable the automatic
generation of a much larger set of concrete questions, including many different
types of visual and textual variations. DynaMath allows us to evaluate the
generalization ability of VLMs, by assessing their performance under varying
input conditions of a seed question. We evaluated 14 SOTA VLMs with 5,010
generated concrete questions. Our results show that the worst-case model
accuracy, defined as the percentage of correctly answered seed questions in all
10 variants, is significantly lower than the average-case accuracy. Our
analysis emphasizes the need to study the robustness of VLMs' reasoning
abilities, and DynaMath provides valuable insights to guide the development of
more reliable models for mathematical reasoning.Summary
AI-Generated Summary