MDocAgent: Ein Multi-Modales Multi-Agenten-Framework für das Verständnis von Dokumenten
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
March 18, 2025
Autoren: Siwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao
cs.AI
Zusammenfassung
Dokumenten-Frage-Antwort (Document Question Answering, DocQA) ist eine sehr verbreitete Aufgabe. Bestehende Methoden, die auf großen Sprachmodellen (Large Language Models, LLMs), großen visuell-sprachlichen Modellen (Large Vision Language Models, LVLMs) und Retrieval Augmented Generation (RAG) basieren, priorisieren oft Informationen aus einer einzigen Modalität und scheitern daran, textuelle und visuelle Hinweise effektiv zu integrieren. Diese Ansätze haben Schwierigkeiten mit komplexer multimodaler Argumentation, was ihre Leistung bei realen Dokumenten einschränkt. Wir stellen MDocAgent (A Multi-Modal Multi-Agent Framework for Document Understanding) vor, ein neuartiges RAG- und Multi-Agenten-Framework, das sowohl Text als auch Bilder nutzt. Unser System setzt fünf spezialisierte Agenten ein: einen allgemeinen Agenten, einen kritischen Agenten, einen Text-Agenten, einen Bild-Agenten und einen zusammenfassenden Agenten. Diese Agenten führen eine multimodale Kontextabfrage durch und kombinieren ihre individuellen Erkenntnisse, um ein umfassenderes Verständnis des Dokumentinhalts zu erreichen. Dieser kollaborative Ansatz ermöglicht es dem System, Informationen aus textuellen und visuellen Komponenten zu synthetisieren, was zu einer verbesserten Genauigkeit bei der Beantwortung von Fragen führt. Vorläufige Experimente auf fünf Benchmarks wie MMLongBench und LongDocURL demonstrieren die Effektivität unseres MDocAgent, der im Durchschnitt eine Verbesserung von 12,1 % im Vergleich zu aktuellen State-of-the-Art-Methoden erzielt. Diese Arbeit trägt zur Entwicklung robusterer und umfassenderer DocQA-Systeme bei, die in der Lage sind, die Komplexitäten realer Dokumente mit reichhaltigen textuellen und visuellen Informationen zu bewältigen. Unsere Daten und unser Code sind unter https://github.com/aiming-lab/MDocAgent verfügbar.
English
Document Question Answering (DocQA) is a very common task. Existing methods
using Large Language Models (LLMs) or Large Vision Language Models (LVLMs) and
Retrieval Augmented Generation (RAG) often prioritize information from a single
modal, failing to effectively integrate textual and visual cues. These
approaches struggle with complex multi-modal reasoning, limiting their
performance on real-world documents. We present MDocAgent (A Multi-Modal
Multi-Agent Framework for Document Understanding), a novel RAG and multi-agent
framework that leverages both text and image. Our system employs five
specialized agents: a general agent, a critical agent, a text agent, an image
agent and a summarizing agent. These agents engage in multi-modal context
retrieval, combining their individual insights to achieve a more comprehensive
understanding of the document's content. This collaborative approach enables
the system to synthesize information from both textual and visual components,
leading to improved accuracy in question answering. Preliminary experiments on
five benchmarks like MMLongBench, LongDocURL demonstrate the effectiveness of
our MDocAgent, achieve an average improvement of 12.1% compared to current
state-of-the-art method. This work contributes to the development of more
robust and comprehensive DocQA systems capable of handling the complexities of
real-world documents containing rich textual and visual information. Our data
and code are available at https://github.com/aiming-lab/MDocAgent.Summary
AI-Generated Summary