CypherBench: Verso il Recupero Preciso su Grafi di Conoscenza Moderni a Larga Scala nell'Era LLM

Abstract

Il recupero dei dati dai grafi è cruciale per arricchire i grandi modelli linguistici (LLM) con conoscenze sia di dominio aperto che di dati aziendali privati, ed è anche un componente chiave nel recente sistema GraphRAG (edge et al., 2024). Nonostante decenni di ricerca sui grafi di conoscenza e sul question answering delle basi di conoscenza, i principali framework LLM (ad es. Langchain e LlamaIndex) offrono solo un supporto minimo per il recupero dai moderni grafi di conoscenza enciclopedica come Wikidata. In questo articolo, analizziamo la causa principale e suggeriamo che i moderni grafi di conoscenza RDF (ad es. Wikidata, Freebase) siano meno efficienti per i LLM a causa di schemi eccessivamente ampi che superano di gran lunga la tipica finestra di contesto dei LLM, dell'uso di identificatori di risorse, di tipi di relazione sovrapposti e della mancanza di normalizzazione. Come soluzione, proponiamo viste di grafo di proprietà in cima al grafo RDF sottostante che possono essere interrogate in modo efficiente dai LLM utilizzando Cypher. Abbiamo istanziato questa idea su Wikidata e introdotto CypherBench, il primo benchmark con 11 grafi di proprietà su larga scala e multi-dominio con 7,8 milioni di entità e oltre 10.000 domande. Per raggiungere questo obiettivo, abbiamo affrontato diverse sfide chiave, tra cui lo sviluppo di un motore di conversione da RDF a grafo di proprietà, la creazione di un pipeline sistematica per la generazione di compiti da testo a Cypher e la progettazione di nuove metriche di valutazione.

English

Retrieval from graph data is crucial for augmenting large language models (LLM) with both open-domain knowledge and private enterprise data, and it is also a key component in the recent GraphRAG system (edge et al., 2024). Despite decades of research on knowledge graphs and knowledge base question answering, leading LLM frameworks (e.g. Langchain and LlamaIndex) have only minimal support for retrieval from modern encyclopedic knowledge graphs like Wikidata. In this paper, we analyze the root cause and suggest that modern RDF knowledge graphs (e.g. Wikidata, Freebase) are less efficient for LLMs due to overly large schemas that far exceed the typical LLM context window, use of resource identifiers, overlapping relation types and lack of normalization. As a solution, we propose property graph views on top of the underlying RDF graph that can be efficiently queried by LLMs using Cypher. We instantiated this idea on Wikidata and introduced CypherBench, the first benchmark with 11 large-scale, multi-domain property graphs with 7.8 million entities and over 10,000 questions. To achieve this, we tackled several key challenges, including developing an RDF-to-property graph conversion engine, creating a systematic pipeline for text-to-Cypher task generation, and designing new evaluation metrics.

CypherBench: Verso il Recupero Preciso su Grafi di Conoscenza Moderni a Larga Scala nell'Era LLM

CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era

Abstract

Summary

Support