MathFlow: Verbesserung des Wahrnehmungsflusses von MLLMs für visuelle mathematische Probleme
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems
March 19, 2025
Autoren: Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
cs.AI
Zusammenfassung
Trotz beeindruckender Leistungen in verschiedenen Aufgaben haben Multimodale Große Sprachmodelle (MLLMs) ihr Potenzial in der visuellen mathematischen Problemlösung noch nicht vollständig unter Beweis gestellt, insbesondere bei der präzisen Wahrnehmung und Interpretation von Diagrammen. Inspiriert von typischen menschlichen Prozessen stellen wir die Hypothese auf, dass die Fähigkeit zur Wahrnehmung, um aussagekräftige Informationen aus Diagrammen zu extrahieren, entscheidend ist, da sie direkt die nachfolgenden Schlussfolgerungsprozesse beeinflusst. Um diese Hypothese zu validieren, entwickelten wir FlowVerse, einen umfassenden Benchmark, der alle während der Problemlösung verwendeten Informationen in vier Komponenten kategorisiert, die dann in sechs Problemversionen für die Bewertung kombiniert werden. Unsere vorläufigen Ergebnisse auf FlowVerse zeigen, dass bestehende MLLMs erhebliche Einschränkungen aufweisen, wenn es darum geht, wesentliche Informationen und abgeleitete Eigenschaften aus Diagrammen zu extrahieren und komplexe Schlussfolgerungen basierend auf diesen visuellen Eingaben durchzuführen. Als Antwort darauf führen wir MathFlow ein, eine modulare Problemlösungspipeline, die Wahrnehmung und Schlussfolgerung in getrennte Phasen entkoppelt und somit jede unabhängig optimiert. Angesichts der beobachteten Wahrnehmungsbeschränkungen aktueller MLLMs haben wir MathFlow-P-7B als dediziertes Wahrnehmungsmodell trainiert. Experimentelle Ergebnisse zeigen, dass MathFlow-P-7B erhebliche Leistungssteigerungen erzielt, wenn es mit verschiedenen Closed-Source- und Open-Source-Schlussfolgerungsmodellen integriert wird. Dies demonstriert die Effektivität der MathFlow-Pipeline und ihre Kompatibilität mit verschiedenen Schlussfolgerungsframeworks. Der FlowVerse-Benchmark und der Code sind unter https://github.com/MathFlow-zju/MathFlow verfügbar.
English
Despite impressive performance across diverse tasks, Multimodal Large
Language Models (MLLMs) have yet to fully demonstrate their potential in visual
mathematical problem-solving, particularly in accurately perceiving and
interpreting diagrams. Inspired by typical processes of humans, we hypothesize
that the perception capabilities to extract meaningful information from
diagrams is crucial, as it directly impacts subsequent inference processes. To
validate this hypothesis, we developed FlowVerse, a comprehensive benchmark
that categorizes all information used during problem-solving into four
components, which are then combined into six problem versions for evaluation.
Our preliminary results on FlowVerse reveal that existing MLLMs exhibit
substantial limitations when extracting essential information and reasoned
property from diagrams and performing complex reasoning based on these visual
inputs. In response, we introduce MathFlow, a modular problem-solving pipeline
that decouples perception and inference into distinct stages, thereby
optimizing each independently. Given the perceptual limitations observed in
current MLLMs, we trained MathFlow-P-7B as a dedicated perception model.
Experimental results indicate that MathFlow-P-7B yields substantial performance
gains when integrated with various closed-source and open-source inference
models. This demonstrates the effectiveness of the MathFlow pipeline and its
compatibility to diverse inference frameworks. The FlowVerse benchmark and code
are available at https://github.com/MathFlow-zju/MathFlow.Summary
AI-Generated Summary