HtmlRAG: HTML is Beter dan Plattekst voor het Modelleren van Opgehaalde Kennis in RAG Systemen

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

November 5, 2024
Auteurs: Jiejun Tan, Zhicheng Dou, Wen Wang, Mang Wang, Weipeng Chen, Ji-Rong Wen
cs.AI

Samenvatting

Retrieval-Augmented Generation (RAG) heeft aangetoond de kennisvaardigheden te verbeteren en het hallucinatieprobleem van LLM's te verlichten. Het web is een belangrijke bron van externe kennis die wordt gebruikt in RAG-systemen, en veel commerciële systemen zoals ChatGPT en Perplexity hebben webzoekmachines gebruikt als hun belangrijkste ophaalsystemen. Typisch halen dergelijke RAG-systemen zoekresultaten op, downloaden ze HTML-bronnen van de resultaten, en extraheren ze vervolgens platte tekst uit de HTML-bronnen. Platte tekstdocumenten of fragmenten worden gevoed aan de LLM's om de generatie aan te vullen. Echter gaat veel van de structurele en semantische informatie inherent aan HTML, zoals koppen en tabelstructuren, verloren tijdens dit op platte tekst gebaseerde RAG-proces. Om dit probleem te verlichten, stellen we HtmlRAG voor, dat HTML gebruikt in plaats van platte tekst als het formaat van opgehaalde kennis in RAG. Wij geloven dat HTML beter is dan platte tekst in het modelleren van kennis in externe documenten, en de meeste LLM's hebben robuuste capaciteiten om HTML te begrijpen. Echter, het gebruik van HTML brengt nieuwe uitdagingen met zich mee. HTML bevat extra inhoud zoals tags, JavaScript en CSS-specificaties, die extra invoertokens en ruis naar het RAG-systeem brengen. Om dit probleem aan te pakken, stellen we HTML-schoonmaak-, compressie- en snoeistrategieën voor, om de HTML te verkorten terwijl het verlies van informatie wordt geminimaliseerd. Specifiek ontwerpen we een tweestaps blok-boom-gebaseerde snoeimethode die nutteloze HTML-blokken snoeit en alleen het relevante deel van de HTML behoudt. Experimenten op zes QA-datasets bevestigen de superioriteit van het gebruik van HTML in RAG-systemen.
English
Retrieval-Augmented Generation (RAG) has been shown to improve knowledge capabilities and alleviate the hallucination problem of LLMs. The Web is a major source of external knowledge used in RAG systems, and many commercial systems such as ChatGPT and Perplexity have used Web search engines as their major retrieval systems. Typically, such RAG systems retrieve search results, download HTML sources of the results, and then extract plain texts from the HTML sources. Plain text documents or chunks are fed into the LLMs to augment the generation. However, much of the structural and semantic information inherent in HTML, such as headings and table structures, is lost during this plain-text-based RAG process. To alleviate this problem, we propose HtmlRAG, which uses HTML instead of plain text as the format of retrieved knowledge in RAG. We believe HTML is better than plain text in modeling knowledge in external documents, and most LLMs possess robust capacities to understand HTML. However, utilizing HTML presents new challenges. HTML contains additional content such as tags, JavaScript, and CSS specifications, which bring extra input tokens and noise to the RAG system. To address this issue, we propose HTML cleaning, compression, and pruning strategies, to shorten the HTML while minimizing the loss of information. Specifically, we design a two-step block-tree-based pruning method that prunes useless HTML blocks and keeps only the relevant part of the HTML. Experiments on six QA datasets confirm the superiority of using HTML in RAG systems.

Summary

AI-Generated Summary

PDF6421November 13, 2024