Neo4j笔记(五):查询的处理流程

Neo4j笔记(五):查询的处理流程

摘要

上一篇讲述了一篇文章如何通过LLM转换成Cypher,然后在Neo4J里运行,形成知识图谱。此篇接着上篇,继续梳理一个用户查询,如何通过图数据库以及大模型去汇总查询结果。

BTW:刚开始我尝试用langchain封装的方法,但后来发现langchaing的核心库以及对neo4j的封装,接口已经大变,很难对齐颗粒度,所以这里使用的方法是自己梳理的过程。


实现流程

整体流程图
flowchart TD A用户提问 --> B获取图谱 Schema B --> CLLM 生成 Cypher 查询 C --> DNeo4j 执行查询 D --> E{查询成功?} E -->|是| F获取查询结果 E -->|否| G返回错误信息 F --> HLLM 增强生成 H --> I自然语言回答 G --> I style A fill:#f9f,stroke:#333,stroke-width:2px style I fill:#9f9,stroke:#333,stroke-width:2px

详细流程说明
sequenceDiagram participant User as 用户 participant LLM as 大语言模型 participant Neo4j as Neo4j图数据库 User->>LLM: 自然语言问题 + 图谱Schema LLM->>LLM: 生成 Cypher 查询语句 LLM-->>User: Cypher语句 User->>Neo4j: 执行 Cypher 查询 Neo4j-->>User: 返回查询结果 User->>LLM: 问题 + 查询结果 LLM->>LLM: 增强生成(总结回答) LLM-->>User: 自然语言回答

流程

  1. 用户提问 → 2. 获取图谱结构 → 3. 生成 Cypher → 4. 执行查询 → 5. LLM 汇总回答

大模型和图数据库的连接

环境配置

创建 .env 文件:

env 复制代码
NEO4J_URL=bolt://localhost:7687
NEO4J_USER=neo4j
NEO4J_PASSWORD=your_password
OPENAI_API_KEY=your_api_key
OPENAI_BASE_URL=https://api.deepseek.com/v1

我这里用的是Deepseek,也可以根据自己的环境选择比如豆包,或者本地Ollama,或者Microsoft Foundry。

大模型调用

python 复制代码
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="deepseek-v4-flash",
    api_key=OPENAI_API_KEY,
    base_url=OPENAI_BASE_URL,
    temperature=0  # 设为 0 提高输出确定性
)

Neo4j 连接

python 复制代码
from langchain_neo4j import Neo4jGraph

graph = Neo4jGraph(
    url=NEO4J_URL,
    username=NEO4J_USER,
    password=NEO4J_PASS
)

第一步:文本转知识图谱

核心思想:利用 LLM 将自然语言文本转换为 Cypher 语句,自动创建知识图谱。

python 复制代码
def text_to_knowledge_graph(text):
    prompt = f"""
请将以下文本转换为 Neo4j Cypher 语句:

文本:{text}

要求:
1. 识别实体作为节点(Person、Location、Event 等)
2. 识别关系作为边(COOPERATE_WITH、PERFORMED_AT 等)
3. 使用 MERGE 语句避免重复
4. 只输出 Cypher 语句
"""
    cypher = llm.invoke(prompt).content
    # 清理 markdown 代码块标记
    if cypher.startswith('```'):
        cypher = cypher.split('\n', 1)[1].rsplit('\n', 1)[0]
    graph.query(cypher)

正巧昨天跟苏鹏老师聊起了郭德纲,所以这里就用郭德纲和于谦来做示例。

输入文本示例

复制代码
郭德纲 1973年出生,相声演员,与于谦长期搭档,2005年爆红
于谦 1969年出生,相声演员,擅长捧哏,常年和郭德纲合作

生成的 Cypher

cypher 复制代码
MERGE (g:Person {name: '郭德纲', birth_year: 1973, occupation: '相声演员'})
MERGE (y:Person {name: '于谦', birth_year: 1969, occupation: '相声演员'})
MERGE (g)-[:COOPERATE_WITH]->(y)

生成的知识图谱

第二步:获取图谱结构

目的:获取数据库的 schema 信息,为生成准确的 Cypher 查询提供上下文。这个思路跟TEXT2SQL基本是一致的。

这里我选择的是先从APOC插件中获取图谱的schema信息,如果失败,再从Neo4j数据库中获取。由于APOC不是默认被安装的,所以目标Neo4j环境很有可能没有这个插件。

python 复制代码
def get_graph_schema():
    # 获取节点标签
    labels = graph.query("CALL db.labels() YIELD label RETURN collect(label)")
    # 获取关系类型
    rels = graph.query("CALL db.relationshipTypes() YIELD relationshipType RETURN collect(relationshipType)")
    # 获取属性键
    props = graph.query("CALL db.propertyKeys() YIELD propertyKey RETURN collect(propertyKey)")
    
    # 尝试使用 APOC(如果安装)
    try:
        apoc_schema = graph.query("CALL apoc.meta.data()")
        return {"labels": labels, "relationships": rels, "properties": props, "apoc": apoc_schema}
    except:
        return {"labels": labels, "relationships": rels, "properties": props}

APOC 安装方法(tar包安装)

  1. 下载对应版本的 APOC jar 文件

  2. 放入 neo4j/plugins/ 目录

  3. 修改 neo4j.conf

    conf 复制代码
    apoc.enabled=true
    apoc.meta.data.allowlist.all=true
  4. 重启 Neo4j

第三步:生成 Cypher 查询并汇总增强生成结果

其它方法都已经准备好,最终再通过如下方法做调度:

python 复制代码
def query_and_summarize(question):
    # 获取图谱结构
    schema = get_graph_schema()
    
    # 生成 Cypher
    cypher_prompt = f"""
图谱结构:{schema}
用户问题:{question}
请生成 Cypher 查询语句。
"""
    cypher = llm.invoke(cypher_prompt).content
    
    # 执行查询
    result = graph.query(cypher)
    
    # LLM 汇总
    summary = llm.invoke(f"问题:{question}\n结果:{result}\n请用自然语言回答").content
    return summary

常见问题与解决方案

问题:LLM 返回带 markdown 代码块

错误信息

复制代码
Invalid input '```cypher': expected 'MATCH', 'MERGE', ...

某些模型会带一些前置和后置标记,有些不会,所以需要根据实际情况处理下。

解决方案:清理代码块标记

python 复制代码
if cypher.startswith('```'):
    cypher = cypher.split('\n', 1)[1].rsplit('\n', 1)[0]

总结

  1. LLM 作为翻译器:将自然语言转换为 Cypher,降低图数据库使用门槛
  2. Schema 信息的重要性:提供结构信息能大幅提高 Cypher 生成的准确性
  3. APOC 的价值:提供元数据查询等高级功能,但非必需
  4. 错误处理:LLM 输出可能不规范,需做好清理和验证

相关推荐
weixin_468466854 小时前
MoneyPrinterTurbo 短视频自动化生产实战指南
运维·人工智能·自动化·大模型·音视频·moneyprinter
Mr.Daozhi6 小时前
RAG 进阶实战:跑通 Demo 后我连续翻了 6 次车,逐一修复才真正可用(含 Gradio Web 版)
前端·数据库·langchain·大模型·gradio·rag·科研工具
weixin_468466859 小时前
千问大模型在阿里生态中的实战应用指南
大数据·人工智能·深度学习·ai·大模型·智能交互·自动应答
战族狼魂10 小时前
集 “自动飞行、智能识别、实时预警、勤务联动” 于一体的高速公路应急车道无人机检测系统方案
java·人工智能·大模型·无人机
2601_9578885610 小时前
从关键词到语义网络:生成式引擎优化(GEO)的技术原理解析与工程实践
人工智能·大模型
专注VB编程开发20年11 小时前
腾讯模型广场DeepSeek 这种热门模型:腾讯云有自己部署,其它小厂第三方模型(百川、智谱等):走对方 API 转发
ai·大模型
数据堂官方账号13 小时前
数据上新|覆盖全双工、具身智能、世界模型等热门研究趋势
人工智能·大模型·具身智能
aqi0014 小时前
15天学会AI应用开发(二)为什么编写提示词这么重要
人工智能·python·大模型·ai编程·ai应用
泛联新安15 小时前
Omni可信智能开发体系发布|赋能工业研发AI转型
ai·大模型·代码可信
清 澜17 小时前
基于 LangChain 从零搭建知识库问答系统
人工智能·职场和发展·大模型·agent·知识库