VisRAG: 다중 모달리티 문서에서의 시각 기반 검색 보강 생성

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

October 14, 2024
저자: Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI

초록

검색 증강 생성 (RAG)은 대규모 언어 모델 (LLM)이 생성을 위해 외부 지식 소스를 활용할 수 있게 하는 효과적인 기술입니다. 그러나 현재 RAG 시스템은 텍스트에만 기반하고 있어 레이아웃 및 이미지와 같은 시각 정보를 활용하는 것이 불가능하며, 이는 현실 세계의 다중 모드 문서에서 중요한 역할을 합니다. 본 논문에서는 이 문제를 해결하기 위해 비전-언어 모델 (VLM) 기반의 RAG 파이프라인을 구축하는 VisRAG를 소개합니다. 이 파이프라인에서는 문서를 먼저 텍스트를 얻기 위해 구문 분석하는 대신, VLM을 이미지로 직접 포함시킨 후 VLM의 생성을 강화하기 위해 검색합니다. 전통적인 텍스트 기반 RAG와 비교했을 때, VisRAG는 원본 문서의 데이터 정보 보존과 활용을 극대화하며 구문 분석 과정 중에 도입된 정보 손실을 제거합니다. VisRAG에서 검색기를 훈련시키기 위해 오픈 소스 및 합성 데이터를 수집하고 다양한 생성 방법을 탐색합니다. 실험 결과, VisRAG는 전통적인 RAG보다 검색 및 생성 단계에서 우수한 성능을 보이며 전통적인 텍스트 기반 RAG 파이프라인보다 25~39%의 종단 간 성능 향상을 달성합니다. 추가 분석 결과, VisRAG는 훈련 데이터를 활용하는 데 효과적이며 강력한 일반화 능력을 보여 다중 모드 문서에 대한 RAG의 유망한 해결책으로 위치하고 있습니다. 저희의 코드와 데이터는 https://github.com/openbmb/visrag 에서 확인할 수 있습니다.
English
Retrieval-augmented generation (RAG) is an effective technique that enables large language models (LLMs) to utilize external knowledge sources for generation. However, current RAG systems are solely based on text, rendering it impossible to utilize vision information like layout and images that play crucial roles in real-world multi-modality documents. In this paper, we introduce VisRAG, which tackles this issue by establishing a vision-language model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the document to obtain text, the document is directly embedded using a VLM as an image and then retrieved to enhance the generation of a VLM. Compared to traditional text-based RAG, VisRAG maximizes the retention and utilization of the data information in the original documents, eliminating the information loss introduced during the parsing process. We collect both open-source and synthetic data to train the retriever in VisRAG and explore a variety of generation methods. Experiments demonstrate that VisRAG outperforms traditional RAG in both the retrieval and generation stages, achieving a 25--39\% end-to-end performance gain over traditional text-based RAG pipeline. Further analysis reveals that VisRAG is effective in utilizing training data and demonstrates strong generalization capability, positioning it as a promising solution for RAG on multi-modality documents. Our code and data are available at https://github.com/openbmb/visrag .

Summary

AI-Generated Summary

PDF222November 16, 2024