L'OCR Ostacola RAG: Valutazione dell'Impatto a Cascata dell'OCR sulla Generazione Potenziata dalla Ricerca
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
December 3, 2024
Autori: Junyuan Zhang, Qintong Zhang, Bin Wang, Linke Ouyang, Zichen Wen, Ying Li, Ka-Ho Chow, Conghui He, Wentao Zhang
cs.AI
Abstract
Il Generazione potenziata da recupero (RAG) migliora i Grandi Modelli Linguistici (LLM) integrando conoscenze esterne per ridurre le allucinazioni e incorporare informazioni aggiornate senza dover ripetere l'addestramento. Come parte essenziale del RAG, le basi di conoscenza esterne vengono comunemente costruite estraendo dati strutturati da documenti PDF non strutturati utilizzando il Riconoscimento Ottico dei Caratteri (OCR). Tuttavia, date le imperfette previsioni dell'OCR e la rappresentazione non uniforme intrinseca dei dati strutturati, le basi di conoscenza contengono inevitabilmente vari rumori dell'OCR. In questo articolo, presentiamo OHRBench, il primo benchmark per comprendere l'impatto a cascata dell'OCR sui sistemi RAG. OHRBench include 350 documenti PDF non strutturati accuratamente selezionati da sei domini di applicazione RAG del mondo reale, insieme a domande e risposte derivate da elementi multimodali nei documenti, sfidando le soluzioni OCR esistenti utilizzate per RAG. Per comprendere meglio l'impatto dell'OCR sui sistemi RAG, identifichiamo due tipi principali di rumore dell'OCR: Rumore Semantico e Rumore di Formattazione e applichiamo perturbazioni per generare un insieme di dati strutturati con diversi gradi di ciascun rumore dell'OCR. Utilizzando OHRBench, conduciamo innanzitutto una valutazione completa delle attuali soluzioni OCR e riveliamo che nessuna è competente per la costruzione di basi di conoscenza di alta qualità per i sistemi RAG. Valutiamo quindi sistematicamente l'impatto di questi due tipi di rumore e dimostriamo la vulnerabilità dei sistemi RAG. Inoltre, discutiamo il potenziale dell'utilizzo di Modelli Visione-Linguaggio (VLM) senza OCR nei sistemi RAG. Codice: https://github.com/opendatalab/OHR-Bench
English
Retrieval-augmented Generation (RAG) enhances Large Language Models (LLMs) by
integrating external knowledge to reduce hallucinations and incorporate
up-to-date information without retraining. As an essential part of RAG,
external knowledge bases are commonly built by extracting structured data from
unstructured PDF documents using Optical Character Recognition (OCR). However,
given the imperfect prediction of OCR and the inherent non-uniform
representation of structured data, knowledge bases inevitably contain various
OCR noises. In this paper, we introduce OHRBench, the first benchmark for
understanding the cascading impact of OCR on RAG systems. OHRBench includes 350
carefully selected unstructured PDF documents from six real-world RAG
application domains, along with Q&As derived from multimodal elements in
documents, challenging existing OCR solutions used for RAG To better understand
OCR's impact on RAG systems, we identify two primary types of OCR noise:
Semantic Noise and Formatting Noise and apply perturbation to generate a set of
structured data with varying degrees of each OCR noise. Using OHRBench, we
first conduct a comprehensive evaluation of current OCR solutions and reveal
that none is competent for constructing high-quality knowledge bases for RAG
systems. We then systematically evaluate the impact of these two noise types
and demonstrate the vulnerability of RAG systems. Furthermore, we discuss the
potential of employing Vision-Language Models (VLMs) without OCR in RAG
systems. Code: https://github.com/opendatalab/OHR-BenchSummary
AI-Generated Summary