ChatPaper.aiChatPaper

MoC: Mischungen von Text-Chunking-Lernern für ein Retrieval-Augmented-Generation-System

MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

March 12, 2025
Autoren: Jihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li
cs.AI

Zusammenfassung

Retrieval-Augmented Generation (RAG), das als sinnvolle Ergänzung zu großen Sprachmodellen (LLMs) dient, übersieht oft den entscheidenden Aspekt der Textsegmentierung innerhalb seiner Pipeline. Dieses Papier führt zunächst eine duale Metrik zur Bewertung ein, bestehend aus Boundary Clarity und Chunk Stickiness, um die direkte Quantifizierung der Segmentierungsqualität zu ermöglichen. Mithilfe dieser Bewertungsmethode heben wir die inhärenten Grenzen traditioneller und semantischer Segmentierung bei der Handhabung komplexer kontextueller Nuancen hervor und untermauern damit die Notwendigkeit, LLMs in den Segmentierungsprozess zu integrieren. Um den inhärenten Kompromiss zwischen Recheneffizienz und Segmentierungspräzision bei LLM-basierten Ansätzen zu adressieren, entwickeln wir das granularitätsbewusste Mixture-of-Chunkers (MoC)-Framework, das aus einem dreistufigen Verarbeitungsmechanismus besteht. Unser Ziel ist es insbesondere, den Segmentierer dazu zu führen, eine strukturierte Liste von Segmentierungsregulären Ausdrücken zu generieren, die anschließend zur Extraktion von Segmenten aus dem Originaltext verwendet werden. Umfangreiche Experimente zeigen, dass sowohl unsere vorgeschlagenen Metriken als auch das MoC-Framework die Herausforderungen der Segmentierungsaufgabe effektiv lösen, den Segmentierungskern offenlegen und die Leistung des RAG-Systems verbessern.
English
Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline. This paper initially introduces a dual-metric evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable the direct quantification of chunking quality. Leveraging this assessment method, we highlight the inherent limitations of traditional and semantic chunking in handling complex contextual nuances, thereby substantiating the necessity of integrating LLMs into chunking process. To address the inherent trade-off between computational efficiency and chunking precision in LLM-based approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC) framework, which consists of a three-stage processing mechanism. Notably, our objective is to guide the chunker towards generating a structured list of chunking regular expressions, which are subsequently employed to extract chunks from the original text. Extensive experiments demonstrate that both our proposed metrics and the MoC framework effectively settle challenges of the chunking task, revealing the chunking kernel while enhancing the performance of the RAG system.

Summary

AI-Generated Summary

PDF43March 13, 2025