HtmlRAG: HTML은 RAG 시스템에서 검색된 지식을 모델링하는 데 일반 텍스트보다 우수합니다.

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

November 5, 2024
저자: Jiejun Tan, Zhicheng Dou, Wen Wang, Mang Wang, Weipeng Chen, Ji-Rong Wen
cs.AI

초록

검색 보강 생성 (RAG)은 LLM의 지식 능력을 향상시키고 환각 문제를 완화하는 데 효과가 있다는 것이 입증되었습니다. 웹은 RAG 시스템에서 사용되는 외부 지식의 주요 원천이며, ChatGPT와 Perplexity와 같은 많은 상용 시스템들이 웹 검색 엔진을 주요 검색 시스템으로 사용해왔습니다. 일반적으로 이러한 RAG 시스템은 검색 결과를 검색하고 결과의 HTML 소스를 다운로드한 다음 HTML 소스에서 일반 텍스트를 추출합니다. 일반 텍스트 문서나 청크는 LLM에 공급되어 생성을 보강합니다. 그러나 HTML에 내재된 제목과 테이블 구조와 같은 구조적 및 의미적 정보의 많은 부분이 이러한 일반 텍스트 기반 RAG 프로세스 중에 손실됩니다. 이 문제를 완화하기 위해 우리는 HtmlRAG를 제안합니다. 이는 RAG에서 검색된 지식의 형식으로 일반 텍스트 대신 HTML을 사용합니다. 우리는 HTML이 외부 문서에서 지식을 모델링하는 데 일반 텍스트보다 우수하다고 믿으며 대부분의 LLM이 HTML을 이해하는 강력한 능력을 갖추고 있다고 생각합니다. 그러나 HTML을 활용하는 것은 새로운 도전을 제기합니다. HTML에는 태그, JavaScript 및 CSS 사양과 같은 추가 콘텐츠가 포함되어 있어 RAG 시스템에 추가 입력 토큰과 잡음을 가져옵니다. 이 문제를 해결하기 위해 우리는 HTML 정리, 압축 및 가지치기 전략을 제안하여 HTML을 줄이면서 정보 손실을 최소화합니다. 구체적으로, 우리는 쓸모없는 HTML 블록을 제거하고 HTML의 관련 부분만 유지하는 두 단계의 블록 트리 기반 가지치기 방법을 설계합니다. 6개의 QA 데이터셋에서 수행한 실험은 RAG 시스템에서 HTML 사용의 우월성을 확인합니다.
English
Retrieval-Augmented Generation (RAG) has been shown to improve knowledge capabilities and alleviate the hallucination problem of LLMs. The Web is a major source of external knowledge used in RAG systems, and many commercial systems such as ChatGPT and Perplexity have used Web search engines as their major retrieval systems. Typically, such RAG systems retrieve search results, download HTML sources of the results, and then extract plain texts from the HTML sources. Plain text documents or chunks are fed into the LLMs to augment the generation. However, much of the structural and semantic information inherent in HTML, such as headings and table structures, is lost during this plain-text-based RAG process. To alleviate this problem, we propose HtmlRAG, which uses HTML instead of plain text as the format of retrieved knowledge in RAG. We believe HTML is better than plain text in modeling knowledge in external documents, and most LLMs possess robust capacities to understand HTML. However, utilizing HTML presents new challenges. HTML contains additional content such as tags, JavaScript, and CSS specifications, which bring extra input tokens and noise to the RAG system. To address this issue, we propose HTML cleaning, compression, and pruning strategies, to shorten the HTML while minimizing the loss of information. Specifically, we design a two-step block-tree-based pruning method that prunes useless HTML blocks and keeps only the relevant part of the HTML. Experiments on six QA datasets confirm the superiority of using HTML in RAG systems.

Summary

AI-Generated Summary

PDF6421November 13, 2024