Estrarre la capacità di ragionamento su grafici visivi da LLM a MLLM.
Distill Visual Chart Reasoning Ability from LLMs to MLLMs
October 24, 2024
Autori: Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Abstract
Risolvere complesse attività di domande e risposte su grafici richiede avanzate capacità di ragionamento visivo nei grandi modelli di linguaggio multimodali (MLLMs). Studi recenti evidenziano che tali capacità sono composte da due parti principali: riconoscere le informazioni chiave dagli input visivi e condurre il ragionamento su di esse. Pertanto, un approccio promettente per potenziare i MLLMs è costruire dati di addestramento rilevanti concentrati su questi due aspetti. Tuttavia, raccogliere e annotare grafici e domande complesse è costoso e richiede tempo, e garantire la qualità delle risposte annotate rimane una sfida. In questo articolo, proponiamo la Traduzione tramite Codice come Intermediario (CIT), un metodo di sintesi dati economico, efficiente e facilmente scalabile per estrarre le capacità di ragionamento visivo dai LLMs ai MLLMs. Il codice funge da intermediario che traduce le rappresentazioni visive dei grafici in rappresentazioni testuali, consentendo ai LLMs di comprendere informazioni cross-modal. In particolare, impieghiamo tecniche di sintesi basate sul testo per costruire codice di tracciamento dei grafici e generare ReachQA, un dataset contenente 3k grafici ad alta intensità di ragionamento e 20k coppie di domande e risposte per potenziare sia le capacità di riconoscimento che di ragionamento. Gli esperimenti mostrano che, quando raffinati con i nostri dati, i modelli non solo si comportano bene su benchmark relativi ai grafici, ma dimostrano anche migliorate capacità di ragionamento multimodale su benchmark matematici generali come MathVista. Il codice e il dataset sono pubblicamente disponibili su https://github.com/hewei2001/ReachQA.
English
Solving complex chart Q&A tasks requires advanced visual reasoning abilities
in multimodal large language models (MLLMs). Recent studies highlight that
these abilities consist of two main parts: recognizing key information from
visual inputs and conducting reasoning over it. Thus, a promising approach to
enhance MLLMs is to construct relevant training data focusing on the two
aspects. However, collecting and annotating complex charts and questions is
costly and time-consuming, and ensuring the quality of annotated answers
remains a challenge. In this paper, we propose Code-as-Intermediary Translation
(CIT), a cost-effective, efficient and easily scalable data synthesis method
for distilling visual reasoning abilities from LLMs to MLLMs. The code serves
as an intermediary that translates visual chart representations into textual
representations, enabling LLMs to understand cross-modal information.
Specifically, we employ text-based synthesizing techniques to construct
chart-plotting code and produce ReachQA, a dataset containing 3k
reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and
reasoning abilities. Experiments show that when fine-tuned with our data,
models not only perform well on chart-related benchmarks, but also demonstrate
improved multimodal reasoning abilities on general mathematical benchmarks like
MathVista. The code and dataset are publicly available at
https://github.com/hewei2001/ReachQA.Summary
AI-Generated Summary