VisDoM: マルチドキュメントQAにおいて、視覚的に豊かな要素を用いたマルチモーダル検索増強生成
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation
December 14, 2024
著者: Manan Suri, Puneet Mathur, Franck Dernoncourt, Kanika Goswami, Ryan A. Rossi, Dinesh Manocha
cs.AI
要旨
複数の文書からの情報を理解することは、視覚的に豊かな要素を持つ文書において特に重要であり、文書に基づく質問応答の評価のために設計された初の包括的なベンチマークであるVisDoMBenchを紹介する。このベンチマークは、表やチャート、プレゼンテーションスライドなど、豊富なマルチモーダルコンテンツを備えた複数文書設定でQAシステムを評価することを目的としている。我々は、視覚的およびテキストのRAGを同時に利用し、強力な視覚検索能力を洗練された言語的推論と組み合わせる革新的なマルチモーダルRetrieval Augmented Generation(RAG)アプローチであるVisDoMRAGを提案する。VisDoMRAGは、証拠のキュレーションと思考の連鎖推論を包括する複数段階の推論プロセスを採用し、同時にテキストと視覚のRAGパイプラインを活用する。VisDoMRAGの重要な革新点は、推論プロセスをモダリティ間で整合させ、一貫した最終回答を生成するための整合性制約付きモダリティ融合メカニズムである。これにより、重要な情報が複数のモダリティに分散しているシナリオにおいて精度が向上し、暗黙のコンテキストの帰属を通じて回答の検証可能性が向上する。オープンソースおよびプロプライエタリの大規模言語モデルを用いた包括的な実験を通じて、VisDoMBench上で最先端の文書QA手法をベンチマークに掛けた。多数の結果から、VisDoMRAGは、エンドツーエンドのマルチモーダル文書QAにおいて、単一モーダルおよび長文脈のLLMベースラインを12-20%上回ることが示された。
English
Understanding information from a collection of multiple documents,
particularly those with visually rich elements, is important for
document-grounded question answering. This paper introduces VisDoMBench, the
first comprehensive benchmark designed to evaluate QA systems in multi-document
settings with rich multimodal content, including tables, charts, and
presentation slides. We propose VisDoMRAG, a novel multimodal Retrieval
Augmented Generation (RAG) approach that simultaneously utilizes visual and
textual RAG, combining robust visual retrieval capabilities with sophisticated
linguistic reasoning. VisDoMRAG employs a multi-step reasoning process
encompassing evidence curation and chain-of-thought reasoning for concurrent
textual and visual RAG pipelines. A key novelty of VisDoMRAG is its
consistency-constrained modality fusion mechanism, which aligns the reasoning
processes across modalities at inference time to produce a coherent final
answer. This leads to enhanced accuracy in scenarios where critical information
is distributed across modalities and improved answer verifiability through
implicit context attribution. Through extensive experiments involving
open-source and proprietary large language models, we benchmark
state-of-the-art document QA methods on VisDoMBench. Extensive results show
that VisDoMRAG outperforms unimodal and long-context LLM baselines for
end-to-end multimodal document QA by 12-20%.Summary
AI-Generated Summary