HtmlRAG: HTML ist besser als Klartext zur Modellierung von abgerufenem Wissen in RAG-Systemen

Zusammenfassung

Die Retrieval-gestützte Generierung (RAG) hat sich als Verbesserung der Wissensfähigkeiten erwiesen und das Halluzinationsproblem von LLMs gelindert. Das Web ist eine wichtige Quelle externen Wissens, die in RAG-Systemen verwendet wird, und viele kommerzielle Systeme wie ChatGPT und Perplexity haben Web-Suchmaschinen als ihre Hauptretrieval-Systeme genutzt. Typischerweise rufen solche RAG-Systeme Suchergebnisse ab, laden die HTML-Quellen der Ergebnisse herunter und extrahieren dann Klartexte aus den HTML-Quellen. Klartextdokumente oder -abschnitte werden den LLMs zugeführt, um die Generierung zu ergänzen. Allerdings geht ein Großteil der strukturellen und semantischen Informationen, die in HTML enthalten sind, wie Überschriften und Tabellenstrukturen, während dieses klartextbasierten RAG-Prozesses verloren. Um dieses Problem zu lindern, schlagen wir HtmlRAG vor, das HTML anstelle von Klartext als das Format des abgerufenen Wissens in RAG verwendet. Wir sind der Meinung, dass HTML besser als Klartext geeignet ist, um Wissen in externen Dokumenten zu modellieren, und die meisten LLMs verfügen über robuste Fähigkeiten, um HTML zu verstehen. Die Verwendung von HTML bringt jedoch neue Herausforderungen mit sich. HTML enthält zusätzliche Inhalte wie Tags, JavaScript und CSS-Spezifikationen, die zusätzliche Eingabetoken und Rauschen in das RAG-System bringen. Um dieses Problem anzugehen, schlagen wir HTML-Reinigungs-, Komprimierungs- und Beschneidungsstrategien vor, um das HTML zu verkürzen und den Informationsverlust zu minimieren. Speziell entwerfen wir eine zweistufige blockbaum-basierte Beschneidungsmethode, die nutzlose HTML-Blöcke beschneidet und nur den relevanten Teil des HTML beibehält. Experimente mit sechs QA-Datensätzen bestätigen die Überlegenheit der Verwendung von HTML in RAG-Systemen.

English

Retrieval-Augmented Generation (RAG) has been shown to improve knowledge capabilities and alleviate the hallucination problem of LLMs. The Web is a major source of external knowledge used in RAG systems, and many commercial systems such as ChatGPT and Perplexity have used Web search engines as their major retrieval systems. Typically, such RAG systems retrieve search results, download HTML sources of the results, and then extract plain texts from the HTML sources. Plain text documents or chunks are fed into the LLMs to augment the generation. However, much of the structural and semantic information inherent in HTML, such as headings and table structures, is lost during this plain-text-based RAG process. To alleviate this problem, we propose HtmlRAG, which uses HTML instead of plain text as the format of retrieved knowledge in RAG. We believe HTML is better than plain text in modeling knowledge in external documents, and most LLMs possess robust capacities to understand HTML. However, utilizing HTML presents new challenges. HTML contains additional content such as tags, JavaScript, and CSS specifications, which bring extra input tokens and noise to the RAG system. To address this issue, we propose HTML cleaning, compression, and pruning strategies, to shorten the HTML while minimizing the loss of information. Specifically, we design a two-step block-tree-based pruning method that prunes useless HTML blocks and keeps only the relevant part of the HTML. Experiments on six QA datasets confirm the superiority of using HTML in RAG systems.

HtmlRAG: HTML ist besser als Klartext zur Modellierung von abgerufenem Wissen in RAG-Systemen

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

Zusammenfassung

Summary

Support