CypherBench: Rumo à Recuperação Precisa em Grafos de Conhecimento Modernos em Escala Total na Era do LLM
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
December 24, 2024
Autores: Yanlin Feng, Simone Papicchio, Sajjadur Rahman
cs.AI
Resumo
A recuperação de dados de grafos é crucial para aumentar os grandes modelos de linguagem (LLM) com conhecimento de domínio aberto e dados empresariais privados, sendo também um componente-chave no recente sistema GraphRAG (edge et al., 2024). Apesar de décadas de pesquisa em grafos de conhecimento e resposta a perguntas de base de conhecimento, os principais frameworks de LLM (por exemplo, Langchain e LlamaIndex) possuem apenas suporte mínimo para recuperação de grafos de conhecimento enciclopédico modernos como o Wikidata. Neste artigo, analisamos a causa raiz e sugerimos que grafos de conhecimento RDF modernos (por exemplo, Wikidata, Freebase) são menos eficientes para LLMs devido a esquemas excessivamente grandes que excedem em muito a janela de contexto típica de LLM, uso de identificadores de recursos, tipos de relação sobrepostos e falta de normalização. Como solução, propomos visualizações de grafos de propriedades sobre o grafo RDF subjacente que podem ser consultadas de forma eficiente por LLMs usando Cypher. Implementamos essa ideia no Wikidata e introduzimos o CypherBench, o primeiro benchmark com 11 grafos de propriedades em larga escala e multi-domínio, com 7,8 milhões de entidades e mais de 10.000 perguntas. Para alcançar isso, enfrentamos vários desafios-chave, incluindo o desenvolvimento de um mecanismo de conversão de RDF para grafo de propriedades, a criação de um pipeline sistemático para geração de tarefas de texto para Cypher e o design de novas métricas de avaliação.
English
Retrieval from graph data is crucial for augmenting large language models
(LLM) with both open-domain knowledge and private enterprise data, and it is
also a key component in the recent GraphRAG system (edge et al., 2024). Despite
decades of research on knowledge graphs and knowledge base question answering,
leading LLM frameworks (e.g. Langchain and LlamaIndex) have only minimal
support for retrieval from modern encyclopedic knowledge graphs like Wikidata.
In this paper, we analyze the root cause and suggest that modern RDF knowledge
graphs (e.g. Wikidata, Freebase) are less efficient for LLMs due to overly
large schemas that far exceed the typical LLM context window, use of resource
identifiers, overlapping relation types and lack of normalization. As a
solution, we propose property graph views on top of the underlying RDF graph
that can be efficiently queried by LLMs using Cypher. We instantiated this idea
on Wikidata and introduced CypherBench, the first benchmark with 11
large-scale, multi-domain property graphs with 7.8 million entities and over
10,000 questions. To achieve this, we tackled several key challenges, including
developing an RDF-to-property graph conversion engine, creating a systematic
pipeline for text-to-Cypher task generation, and designing new evaluation
metrics.Summary
AI-Generated Summary