Extraire la capacité de raisonnement visuel basée sur des graphiques des LLM vers les MLLMs
Distill Visual Chart Reasoning Ability from LLMs to MLLMs
October 24, 2024
Auteurs: Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Résumé
Résoudre des tâches complexes de questions-réponses basées sur des graphiques nécessite des capacités avancées de raisonnement visuel dans les grands modèles de langage multimodaux (MLLM). Des études récentes mettent en évidence que ces capacités se composent de deux parties principales : la reconnaissance des informations clés à partir des entrées visuelles et la réalisation de raisonnements dessus. Ainsi, une approche prometteuse pour améliorer les MLLMs est de construire des données d'entraînement pertinentes en se concentrant sur ces deux aspects. Cependant, la collecte et l'annotation de graphiques complexes et de questions sont coûteuses et chronophages, et garantir la qualité des réponses annotées reste un défi. Dans cet article, nous proposons la Traduction par Code comme Intermédiaire (CIT), une méthode de synthèse de données rentable, efficace et facilement scalable pour extraire les capacités de raisonnement visuel des LLMs vers les MLLMs. Le code sert d'intermédiaire qui traduit les représentations visuelles des graphiques en représentations textuelles, permettant aux LLMs de comprendre les informations cross-modales. Plus précisément, nous utilisons des techniques de synthèse basées sur du texte pour construire du code de traçage de graphiques et produire ReachQA, un ensemble de données contenant 3k graphiques intensifs en raisonnement et 20k paires de questions-réponses pour améliorer à la fois les capacités de reconnaissance et de raisonnement. Les expériences montrent que lorsqu'ils sont affinés avec nos données, les modèles non seulement performent bien sur des référentiels liés aux graphiques, mais démontrent également des capacités de raisonnement multimodal améliorées sur des référentiels mathématiques généraux comme MathVista. Le code et l'ensemble de données sont disponibles publiquement sur https://github.com/hewei2001/ReachQA.
English
Solving complex chart Q&A tasks requires advanced visual reasoning abilities
in multimodal large language models (MLLMs). Recent studies highlight that
these abilities consist of two main parts: recognizing key information from
visual inputs and conducting reasoning over it. Thus, a promising approach to
enhance MLLMs is to construct relevant training data focusing on the two
aspects. However, collecting and annotating complex charts and questions is
costly and time-consuming, and ensuring the quality of annotated answers
remains a challenge. In this paper, we propose Code-as-Intermediary Translation
(CIT), a cost-effective, efficient and easily scalable data synthesis method
for distilling visual reasoning abilities from LLMs to MLLMs. The code serves
as an intermediary that translates visual chart representations into textual
representations, enabling LLMs to understand cross-modal information.
Specifically, we employ text-based synthesizing techniques to construct
chart-plotting code and produce ReachQA, a dataset containing 3k
reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and
reasoning abilities. Experiments show that when fine-tuned with our data,
models not only perform well on chart-related benchmarks, but also demonstrate
improved multimodal reasoning abilities on general mathematical benchmarks like
MathVista. The code and dataset are publicly available at
https://github.com/hewei2001/ReachQA.Summary
AI-Generated Summary