HtmlRAG: HTML ist besser als Klartext zur Modellierung von abgerufenem Wissen in RAG-Systemen
HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
November 5, 2024
Autoren: Jiejun Tan, Zhicheng Dou, Wen Wang, Mang Wang, Weipeng Chen, Ji-Rong Wen
cs.AI
Zusammenfassung
Die Retrieval-gestützte Generierung (RAG) hat sich als Verbesserung der Wissensfähigkeiten erwiesen und das Halluzinationsproblem von LLMs gelindert. Das Web ist eine wichtige Quelle externen Wissens, die in RAG-Systemen verwendet wird, und viele kommerzielle Systeme wie ChatGPT und Perplexity haben Web-Suchmaschinen als ihre Hauptretrieval-Systeme genutzt. Typischerweise rufen solche RAG-Systeme Suchergebnisse ab, laden die HTML-Quellen der Ergebnisse herunter und extrahieren dann Klartexte aus den HTML-Quellen. Klartextdokumente oder -abschnitte werden den LLMs zugeführt, um die Generierung zu ergänzen. Allerdings geht ein Großteil der strukturellen und semantischen Informationen, die in HTML enthalten sind, wie Überschriften und Tabellenstrukturen, während dieses klartextbasierten RAG-Prozesses verloren. Um dieses Problem zu lindern, schlagen wir HtmlRAG vor, das HTML anstelle von Klartext als das Format des abgerufenen Wissens in RAG verwendet. Wir sind der Meinung, dass HTML besser als Klartext geeignet ist, um Wissen in externen Dokumenten zu modellieren, und die meisten LLMs verfügen über robuste Fähigkeiten, um HTML zu verstehen. Die Verwendung von HTML bringt jedoch neue Herausforderungen mit sich. HTML enthält zusätzliche Inhalte wie Tags, JavaScript und CSS-Spezifikationen, die zusätzliche Eingabetoken und Rauschen in das RAG-System bringen. Um dieses Problem anzugehen, schlagen wir HTML-Reinigungs-, Komprimierungs- und Beschneidungsstrategien vor, um das HTML zu verkürzen und den Informationsverlust zu minimieren. Speziell entwerfen wir eine zweistufige blockbaum-basierte Beschneidungsmethode, die nutzlose HTML-Blöcke beschneidet und nur den relevanten Teil des HTML beibehält. Experimente mit sechs QA-Datensätzen bestätigen die Überlegenheit der Verwendung von HTML in RAG-Systemen.
English
Retrieval-Augmented Generation (RAG) has been shown to improve knowledge
capabilities and alleviate the hallucination problem of LLMs. The Web is a
major source of external knowledge used in RAG systems, and many commercial
systems such as ChatGPT and Perplexity have used Web search engines as their
major retrieval systems. Typically, such RAG systems retrieve search results,
download HTML sources of the results, and then extract plain texts from the
HTML sources. Plain text documents or chunks are fed into the LLMs to augment
the generation. However, much of the structural and semantic information
inherent in HTML, such as headings and table structures, is lost during this
plain-text-based RAG process. To alleviate this problem, we propose HtmlRAG,
which uses HTML instead of plain text as the format of retrieved knowledge in
RAG. We believe HTML is better than plain text in modeling knowledge in
external documents, and most LLMs possess robust capacities to understand HTML.
However, utilizing HTML presents new challenges. HTML contains additional
content such as tags, JavaScript, and CSS specifications, which bring extra
input tokens and noise to the RAG system. To address this issue, we propose
HTML cleaning, compression, and pruning strategies, to shorten the HTML while
minimizing the loss of information. Specifically, we design a two-step
block-tree-based pruning method that prunes useless HTML blocks and keeps only
the relevant part of the HTML. Experiments on six QA datasets confirm the
superiority of using HTML in RAG systems.Summary
AI-Generated Summary