MAPS: Ein Multi-Agenten-Framework basierend auf der Big-Seven-Persönlichkeit und sokratischer Anleitung für multimodales wissenschaftliches Problemlösen
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
March 21, 2025
Autoren: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu
cs.AI
Zusammenfassung
Multimodale wissenschaftliche Probleme (MSPs) umfassen komplexe Fragestellungen, die die Integration multipler Modalitäten wie Text und Diagramme erfordern und stellen somit eine erhebliche Herausforderung in der künstlichen Intelligenz dar. Während Fortschritte bei der Bewältigung traditioneller wissenschaftlicher Probleme erzielt wurden, stehen MSPs weiterhin vor zwei Hauptproblemen: der Herausforderung des multimodalen umfassenden Denkens bei der Lösung wissenschaftlicher Probleme und dem Mangel an reflektierenden und überdenkenden Fähigkeiten. Um diese Probleme anzugehen, führen wir ein Multi-Agenten-Framework basierend auf den Big Seven Persönlichkeitsmerkmalen und sokratischer Anleitung (MAPS) ein. Dieses Framework nutzt sieben verschiedene Agenten, die Feedback-Mechanismen und die sokratische Methode einsetzen, um die Lösung von MSPs zu leiten. Um das erste Problem zu bewältigen, schlagen wir eine progressive Vier-Agenten-Lösungsstrategie vor, bei der jeder Agent auf eine spezifische Phase des Problemlösungsprozesses fokussiert ist. Für das zweite Problem führen wir einen Kritiker-Agenten ein, der von sokratischem Fragen inspiriert ist und kritisches Denken anregt sowie autonomes Lernen fördert. Wir führen umfangreiche Experimente auf den Datensätzen EMMA, Olympiad und MathVista durch und erzielen vielversprechende Ergebnisse, die das aktuelle SOTA-Modell über alle Aufgaben hinweg um 15,84% übertreffen. Gleichzeitig bestätigen zusätzliche analytische Experimente den Fortschritt sowie die Generalisierungsfähigkeit des Modells.
English
Multimodal scientific problems (MSPs) involve complex issues that require the
integration of multiple modalities, such as text and diagrams, presenting a
significant challenge in artificial intelligence. While progress has been made
in addressing traditional scientific problems, MSPs still face two primary
issues: the challenge of multi-modal comprehensive reasoning in scientific
problem-solving and the lack of reflective and rethinking capabilities. To
address these issues, we introduce a Multi-Agent framework based on the Big
Seven Personality and Socratic guidance (MAPS). This framework employs seven
distinct agents that leverage feedback mechanisms and the Socratic method to
guide the resolution of MSPs. To tackle the first issue, we propose a
progressive four-agent solving strategy, where each agent focuses on a specific
stage of the problem-solving process. For the second issue, we introduce a
Critic agent, inspired by Socratic questioning, which prompts critical thinking
and stimulates autonomous learning. We conduct extensive experiments on the
EMMA, Olympiad, and MathVista datasets, achieving promising results that
outperform the current SOTA model by 15.84% across all tasks. Meanwhile, the
additional analytical experiments also verify the model's progress as well as
generalization ability.Summary
AI-Generated Summary