VisDoM: Perguntas e Respostas em Múltiplos Documentos com Elementos Visualmente Ricos Utilizando Geração Aprimorada por Recuperação Multimodal
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation
December 14, 2024
Autores: Manan Suri, Puneet Mathur, Franck Dernoncourt, Kanika Goswami, Ryan A. Rossi, Dinesh Manocha
cs.AI
Resumo
Compreender informações de uma coleção de múltiplos documentos, especialmente aqueles com elementos visualmente ricos, é importante para a resposta a perguntas fundamentadas em documentos. Este artigo apresenta o VisDoMBench, o primeiro benchmark abrangente projetado para avaliar sistemas de QA em ambientes de múltiplos documentos com conteúdo multimodal rico, incluindo tabelas, gráficos e slides de apresentação. Propomos o VisDoMRAG, uma abordagem inovadora de Geração Aumentada de Recuperação (RAG) multimodal que utiliza simultaneamente RAG visual e textual, combinando capacidades robustas de recuperação visual com raciocínio linguístico sofisticado. O VisDoMRAG emprega um processo de raciocínio em várias etapas que abrange a curadoria de evidências e o raciocínio encadeado para pipelines RAG textuais e visuais concorrentes. Uma novidade chave do VisDoMRAG é seu mecanismo de fusão de modalidade com restrição de consistência, que alinha os processos de raciocínio entre modalidades no momento da inferência para produzir uma resposta final coerente. Isso leva a uma precisão aprimorada em cenários nos quais informações críticas estão distribuídas entre modalidades e a uma melhor verificabilidade da resposta por meio da atribuição implícita de contexto. Através de experimentos extensivos envolvendo modelos de linguagem grandes de código aberto e proprietários, nós avaliamos métodos de QA de documentos de ponta no VisDoMBench. Resultados abrangentes mostram que o VisDoMRAG supera baselines LLM unimodais e de longo contexto para QA de documentos multimodais de ponta a ponta em 12-20%.
English
Understanding information from a collection of multiple documents,
particularly those with visually rich elements, is important for
document-grounded question answering. This paper introduces VisDoMBench, the
first comprehensive benchmark designed to evaluate QA systems in multi-document
settings with rich multimodal content, including tables, charts, and
presentation slides. We propose VisDoMRAG, a novel multimodal Retrieval
Augmented Generation (RAG) approach that simultaneously utilizes visual and
textual RAG, combining robust visual retrieval capabilities with sophisticated
linguistic reasoning. VisDoMRAG employs a multi-step reasoning process
encompassing evidence curation and chain-of-thought reasoning for concurrent
textual and visual RAG pipelines. A key novelty of VisDoMRAG is its
consistency-constrained modality fusion mechanism, which aligns the reasoning
processes across modalities at inference time to produce a coherent final
answer. This leads to enhanced accuracy in scenarios where critical information
is distributed across modalities and improved answer verifiability through
implicit context attribution. Through extensive experiments involving
open-source and proprietary large language models, we benchmark
state-of-the-art document QA methods on VisDoMBench. Extensive results show
that VisDoMRAG outperforms unimodal and long-context LLM baselines for
end-to-end multimodal document QA by 12-20%.Summary
AI-Generated Summary