Extrahieren der Fähigkeit zur visuellen Diagramm-Begründung von LLMs zu MLLMs
Distill Visual Chart Reasoning Ability from LLMs to MLLMs
October 24, 2024
Autoren: Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Zusammenfassung
Die Lösung komplexer Diagramm-Fragen-Antwort-Aufgaben erfordert fortgeschrittene visuelle Denkfähigkeiten in multimodalen großen Sprachmodellen (MLLMs). Aktuelle Studien heben hervor, dass diese Fähigkeiten aus zwei Hauptteilen bestehen: dem Erkennen von Schlüsselinformationen aus visuellen Eingaben und dem Durchführen von Schlussfolgerungen darüber. Ein vielversprechender Ansatz zur Verbesserung von MLLMs besteht daher darin, relevante Trainingsdaten zu erstellen, die sich auf diese beiden Aspekte konzentrieren. Das Sammeln und Annotieren komplexer Diagramme und Fragen ist jedoch kostspielig und zeitaufwändig, und die Sicherstellung der Qualität der annotierten Antworten bleibt eine Herausforderung. In diesem Papier schlagen wir Code-als-Zwischenübersetzung (CIT) vor, eine kostengünstige, effiziente und leicht skalierbare Datensynthesemethode zur Extraktion von visuellen Denkfähigkeiten aus LLMs für MLLMs. Der Code dient als Vermittler, der visuelle Diagrammdarstellungen in textuelle Darstellungen übersetzt und es LLMs ermöglicht, informationen über Modalitäten hinweg zu verstehen. Konkret verwenden wir textbasierte Synthesetechniken, um Diagrammplot-Code zu erstellen und ReachQA zu produzieren, einen Datensatz mit 3k schlussfolgerungsintensiven Diagrammen und 20k Frage-Antwort-Paaren zur Verbesserung von Erkennungs- und Schlussfolgerungsfähigkeiten. Experimente zeigen, dass Modelle, die mit unseren Daten feinabgestimmt sind, nicht nur gut bei Diagramm-bezogenen Benchmarks abschneiden, sondern auch verbesserte multimodale Denkfähigkeiten bei allgemeinen mathematischen Benchmarks wie MathVista zeigen. Der Code und der Datensatz sind öffentlich unter https://github.com/hewei2001/ReachQA verfügbar.
English
Solving complex chart Q&A tasks requires advanced visual reasoning abilities
in multimodal large language models (MLLMs). Recent studies highlight that
these abilities consist of two main parts: recognizing key information from
visual inputs and conducting reasoning over it. Thus, a promising approach to
enhance MLLMs is to construct relevant training data focusing on the two
aspects. However, collecting and annotating complex charts and questions is
costly and time-consuming, and ensuring the quality of annotated answers
remains a challenge. In this paper, we propose Code-as-Intermediary Translation
(CIT), a cost-effective, efficient and easily scalable data synthesis method
for distilling visual reasoning abilities from LLMs to MLLMs. The code serves
as an intermediary that translates visual chart representations into textual
representations, enabling LLMs to understand cross-modal information.
Specifically, we employ text-based synthesizing techniques to construct
chart-plotting code and produce ReachQA, a dataset containing 3k
reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and
reasoning abilities. Experiments show that when fine-tuned with our data,
models not only perform well on chart-related benchmarks, but also demonstrate
improved multimodal reasoning abilities on general mathematical benchmarks like
MathVista. The code and dataset are publicly available at
https://github.com/hewei2001/ReachQA.Summary
AI-Generated Summary