ChatPaper.aiChatPaper

ViDoRAG: Визуальное извлечение документов с расширенной генерацией через динамические итеративные агенты рассуждения

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

February 25, 2025
Авторы: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
cs.AI

Аннотация

Понимание информации из визуально насыщенных документов остается серьезной проблемой для традиционных методов Retrieval-Augmented Generation (RAG). Существующие бенчмарки в основном сосредоточены на вопросах и ответах на основе изображений (QA), упуская из виду фундаментальные задачи эффективного поиска, понимания и рассуждений в плотных визуальных документах. Чтобы устранить этот пробел, мы представляем ViDoSeek — новый набор данных, предназначенный для оценки производительности RAG на визуально насыщенных документах, требующих сложных рассуждений. На его основе мы выявляем ключевые ограничения современных подходов RAG: (i) чисто визуальные методы поиска не могут эффективно интегрировать текстовые и визуальные признаки, и (ii) предыдущие подходы часто выделяют недостаточно токенов для рассуждений, что ограничивает их эффективность. Для решения этих задач мы предлагаем ViDoRAG — новый мультиагентный фреймворк RAG, адаптированный для сложных рассуждений в визуальных документах. ViDoRAG использует гибридную стратегию на основе Гауссовской смеси моделей (GMM) для эффективной обработки мультимодального поиска. Чтобы дополнительно раскрыть способности модели к рассуждениям, мы вводим итеративный рабочий процесс агента, включающий исследование, суммирование и рефлексию, предоставляя основу для изучения масштабирования на этапе тестирования в областях RAG. Масштабные эксперименты на ViDoSeek подтверждают эффективность и обобщаемость нашего подхода. В частности, ViDoRAG превосходит существующие методы более чем на 10% на конкурентном бенчмарке ViDoSeek.
English
Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.

Summary

AI-Generated Summary

PDF182March 3, 2025