HtmlRAG: HTML is Beter dan Plattekst voor het Modelleren van Opgehaalde Kennis in RAG Systemen
HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
November 5, 2024
Auteurs: Jiejun Tan, Zhicheng Dou, Wen Wang, Mang Wang, Weipeng Chen, Ji-Rong Wen
cs.AI
Samenvatting
Retrieval-Augmented Generation (RAG) heeft aangetoond de kennisvaardigheden te verbeteren en het hallucinatieprobleem van LLM's te verlichten. Het web is een belangrijke bron van externe kennis die wordt gebruikt in RAG-systemen, en veel commerciële systemen zoals ChatGPT en Perplexity hebben webzoekmachines gebruikt als hun belangrijkste ophaalsystemen. Typisch halen dergelijke RAG-systemen zoekresultaten op, downloaden ze HTML-bronnen van de resultaten, en extraheren ze vervolgens platte tekst uit de HTML-bronnen. Platte tekstdocumenten of fragmenten worden gevoed aan de LLM's om de generatie aan te vullen. Echter gaat veel van de structurele en semantische informatie inherent aan HTML, zoals koppen en tabelstructuren, verloren tijdens dit op platte tekst gebaseerde RAG-proces. Om dit probleem te verlichten, stellen we HtmlRAG voor, dat HTML gebruikt in plaats van platte tekst als het formaat van opgehaalde kennis in RAG. Wij geloven dat HTML beter is dan platte tekst in het modelleren van kennis in externe documenten, en de meeste LLM's hebben robuuste capaciteiten om HTML te begrijpen. Echter, het gebruik van HTML brengt nieuwe uitdagingen met zich mee. HTML bevat extra inhoud zoals tags, JavaScript en CSS-specificaties, die extra invoertokens en ruis naar het RAG-systeem brengen. Om dit probleem aan te pakken, stellen we HTML-schoonmaak-, compressie- en snoeistrategieën voor, om de HTML te verkorten terwijl het verlies van informatie wordt geminimaliseerd. Specifiek ontwerpen we een tweestaps blok-boom-gebaseerde snoeimethode die nutteloze HTML-blokken snoeit en alleen het relevante deel van de HTML behoudt. Experimenten op zes QA-datasets bevestigen de superioriteit van het gebruik van HTML in RAG-systemen.
English
Retrieval-Augmented Generation (RAG) has been shown to improve knowledge
capabilities and alleviate the hallucination problem of LLMs. The Web is a
major source of external knowledge used in RAG systems, and many commercial
systems such as ChatGPT and Perplexity have used Web search engines as their
major retrieval systems. Typically, such RAG systems retrieve search results,
download HTML sources of the results, and then extract plain texts from the
HTML sources. Plain text documents or chunks are fed into the LLMs to augment
the generation. However, much of the structural and semantic information
inherent in HTML, such as headings and table structures, is lost during this
plain-text-based RAG process. To alleviate this problem, we propose HtmlRAG,
which uses HTML instead of plain text as the format of retrieved knowledge in
RAG. We believe HTML is better than plain text in modeling knowledge in
external documents, and most LLMs possess robust capacities to understand HTML.
However, utilizing HTML presents new challenges. HTML contains additional
content such as tags, JavaScript, and CSS specifications, which bring extra
input tokens and noise to the RAG system. To address this issue, we propose
HTML cleaning, compression, and pruning strategies, to shorten the HTML while
minimizing the loss of information. Specifically, we design a two-step
block-tree-based pruning method that prunes useless HTML blocks and keeps only
the relevant part of the HTML. Experiments on six QA datasets confirm the
superiority of using HTML in RAG systems.Summary
AI-Generated Summary