Destilleer het vermogen tot visuele grafiekredenering van LLM's naar MLLM's.

Distill Visual Chart Reasoning Ability from LLMs to MLLMs

October 24, 2024
Auteurs: Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Samenvatting

Het oplossen van complexe vraag-en-antwoordtaken met diagrammen vereist geavanceerde visuele redeneervaardigheden in multimodale grote taalmodellen (MLLM's). Recente studies benadrukken dat deze vaardigheden bestaan uit twee hoofdonderdelen: het herkennen van essentiële informatie uit visuele invoer en het uitvoeren van redeneringen daarover. Daarom is een veelbelovende benadering om MLLM's te verbeteren het construeren van relevante trainingsgegevens die zich richten op deze twee aspecten. Het verzamelen en annoteren van complexe diagrammen en vragen is echter kostbaar en tijdrovend, en het waarborgen van de kwaliteit van geannoteerde antwoorden blijft een uitdaging. In dit artikel stellen we Code-als-Tussenliggende Vertaling (CIT) voor, een kosteneffectieve, efficiënte en gemakkelijk schaalbare gegevenssynthesemethode om visuele redeneervaardigheden van LLM's naar MLLM's te destilleren. De code fungeert als een tussenpersoon die visuele diagramrepresentaties vertaalt naar tekstuele representaties, waardoor LLM's crossmodale informatie kunnen begrijpen. Specifiek maken we gebruik van op tekst gebaseerde synthesetechnieken om code voor diagramplotten te construeren en produceren we ReachQA, een dataset met 3k redeneringsintensieve diagrammen en 20k vraag-en-antwoordparen om zowel de herkennings- als redeneervaardigheden te verbeteren. Experimenten tonen aan dat modellen, wanneer fijn afgestemd met onze gegevens, niet alleen goed presteren op diagramgerelateerde benchmarks, maar ook verbeterde multimodale redeneervaardigheden laten zien op algemene wiskundige benchmarks zoals MathVista. De code en dataset zijn openbaar beschikbaar op https://github.com/hewei2001/ReachQA.
English
Solving complex chart Q&A tasks requires advanced visual reasoning abilities in multimodal large language models (MLLMs). Recent studies highlight that these abilities consist of two main parts: recognizing key information from visual inputs and conducting reasoning over it. Thus, a promising approach to enhance MLLMs is to construct relevant training data focusing on the two aspects. However, collecting and annotating complex charts and questions is costly and time-consuming, and ensuring the quality of annotated answers remains a challenge. In this paper, we propose Code-as-Intermediary Translation (CIT), a cost-effective, efficient and easily scalable data synthesis method for distilling visual reasoning abilities from LLMs to MLLMs. The code serves as an intermediary that translates visual chart representations into textual representations, enabling LLMs to understand cross-modal information. Specifically, we employ text-based synthesizing techniques to construct chart-plotting code and produce ReachQA, a dataset containing 3k reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and reasoning abilities. Experiments show that when fine-tuned with our data, models not only perform well on chart-related benchmarks, but also demonstrate improved multimodal reasoning abilities on general mathematical benchmarks like MathVista. The code and dataset are publicly available at https://github.com/hewei2001/ReachQA.

Summary

AI-Generated Summary

PDF195November 16, 2024