CypherBench: Verso il Recupero Preciso su Grafi di Conoscenza Moderni a Larga Scala nell'Era LLM
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
December 24, 2024
Autori: Yanlin Feng, Simone Papicchio, Sajjadur Rahman
cs.AI
Abstract
Il recupero dei dati dai grafi è cruciale per arricchire i grandi modelli linguistici (LLM) con conoscenze sia di dominio aperto che di dati aziendali privati, ed è anche un componente chiave nel recente sistema GraphRAG (edge et al., 2024). Nonostante decenni di ricerca sui grafi di conoscenza e sul question answering delle basi di conoscenza, i principali framework LLM (ad es. Langchain e LlamaIndex) offrono solo un supporto minimo per il recupero dai moderni grafi di conoscenza enciclopedica come Wikidata. In questo articolo, analizziamo la causa principale e suggeriamo che i moderni grafi di conoscenza RDF (ad es. Wikidata, Freebase) siano meno efficienti per i LLM a causa di schemi eccessivamente ampi che superano di gran lunga la tipica finestra di contesto dei LLM, dell'uso di identificatori di risorse, di tipi di relazione sovrapposti e della mancanza di normalizzazione. Come soluzione, proponiamo viste di grafo di proprietà in cima al grafo RDF sottostante che possono essere interrogate in modo efficiente dai LLM utilizzando Cypher. Abbiamo istanziato questa idea su Wikidata e introdotto CypherBench, il primo benchmark con 11 grafi di proprietà su larga scala e multi-dominio con 7,8 milioni di entità e oltre 10.000 domande. Per raggiungere questo obiettivo, abbiamo affrontato diverse sfide chiave, tra cui lo sviluppo di un motore di conversione da RDF a grafo di proprietà, la creazione di un pipeline sistematica per la generazione di compiti da testo a Cypher e la progettazione di nuove metriche di valutazione.
English
Retrieval from graph data is crucial for augmenting large language models
(LLM) with both open-domain knowledge and private enterprise data, and it is
also a key component in the recent GraphRAG system (edge et al., 2024). Despite
decades of research on knowledge graphs and knowledge base question answering,
leading LLM frameworks (e.g. Langchain and LlamaIndex) have only minimal
support for retrieval from modern encyclopedic knowledge graphs like Wikidata.
In this paper, we analyze the root cause and suggest that modern RDF knowledge
graphs (e.g. Wikidata, Freebase) are less efficient for LLMs due to overly
large schemas that far exceed the typical LLM context window, use of resource
identifiers, overlapping relation types and lack of normalization. As a
solution, we propose property graph views on top of the underlying RDF graph
that can be efficiently queried by LLMs using Cypher. We instantiated this idea
on Wikidata and introduced CypherBench, the first benchmark with 11
large-scale, multi-domain property graphs with 7.8 million entities and over
10,000 questions. To achieve this, we tackled several key challenges, including
developing an RDF-to-property graph conversion engine, creating a systematic
pipeline for text-to-Cypher task generation, and designing new evaluation
metrics.Summary
AI-Generated Summary