MMDocIR: Benchmarking Multi-Modal Retrieval für lange Dokumente
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents
January 15, 2025
Autoren: Kuicai Dong, Yujing Chang, Xin Deik Goh, Dexun Li, Ruiming Tang, Yong Liu
cs.AI
Zusammenfassung
Die Multi-Modal-Dokumentensuche ist darauf ausgelegt, verschiedene Formen von Multi-Modal-Inhalten wie Abbildungen, Tabellen, Diagramme und Layout-Informationen aus umfangreichen Dokumenten zu identifizieren und abzurufen. Trotz ihrer Bedeutung fehlt es jedoch an einem robusten Benchmark, um die Leistung von Systemen in der Multi-Modal-Dokumentensuche effektiv zu bewerten. Um diese Lücke zu schließen, führt diese Arbeit einen neuen Benchmark namens MMDocIR ein, der zwei unterschiedliche Aufgaben umfasst: die Seiten- und Layout-Ebene. Ersteres konzentriert sich darauf, die relevantesten Seiten in einem langen Dokument zu lokalisieren, während Letzteres die Erkennung spezifischer Layouts anvisiert und eine feinere Granularität als die Analyse der gesamten Seite bietet. Ein Layout kann sich auf verschiedene Elemente wie Textabsätze, Gleichungen, Abbildungen, Tabellen oder Diagramme beziehen. Der MMDocIR-Benchmark umfasst einen umfangreichen Datensatz mit fachkundig annotierten Labels für 1.685 Fragen und gebooteten Labels für 173.843 Fragen, was ihn zu einer entscheidenden Ressource für die Weiterentwicklung der Multi-Modal-Dokumentensuche sowohl für das Training als auch die Evaluation macht. Durch rigorose Experimente zeigen wir, dass (i) visuelle Sucher ihre textbasierten Gegenstücke signifikant übertreffen, (ii) der MMDocIR-Trainingsdatensatz den Trainingsprozess der Multi-Modal-Dokumentensuche effektiv unterstützen kann und (iii) Textsucher, die auf VLM-Text setzen, deutlich besser abschneiden als diejenigen, die OCR-Text verwenden. Diese Ergebnisse unterstreichen die potenziellen Vorteile der Integration visueller Elemente für die Multi-Modal-Dokumentensuche.
English
Multi-modal document retrieval is designed to identify and retrieve various
forms of multi-modal content, such as figures, tables, charts, and layout
information from extensive documents. Despite its significance, there is a
notable lack of a robust benchmark to effectively evaluate the performance of
systems in multi-modal document retrieval. To address this gap, this work
introduces a new benchmark, named as MMDocIR, encompassing two distinct tasks:
page-level and layout-level retrieval. The former focuses on localizing the
most relevant pages within a long document, while the latter targets the
detection of specific layouts, offering a more fine-grained granularity than
whole-page analysis. A layout can refer to a variety of elements such as
textual paragraphs, equations, figures, tables, or charts. The MMDocIR
benchmark comprises a rich dataset featuring expertly annotated labels for
1,685 questions and bootstrapped labels for 173,843 questions, making it a
pivotal resource for advancing multi-modal document retrieval for both training
and evaluation. Through rigorous experiments, we reveal that (i) visual
retrievers significantly outperform their text counterparts, (ii) MMDocIR train
set can effectively benefit the training process of multi-modal document
retrieval and (iii) text retrievers leveraging on VLM-text perform much better
than those using OCR-text. These findings underscores the potential advantages
of integrating visual elements for multi-modal document retrieval.Summary
AI-Generated Summary