腾讯开源Youtu-GraphRAG

Youtu-GraphRAG:垂直统一的图增强复杂推理新范式

重新定义图检索增强推理范式,以97%的Token成本节约和16.62%的精度提升实现帕累托改进*

项目简介

Youtu-GraphRAG 是一个基于图Schema实现垂直统一的图增强推理范式,将GraphRAG框架精巧地集成为一个以智能体为核心的有机整体。实现了通过在图Schema上的最小化人为干预下进行跨领域的无缝迁移,为业界应用提供了泛化、鲁棒、可用的下一代GraphRAG范式。

Youtu-GraphRAG三大落地场景

🔗 多跳推理与总结 :解决需要多步推理的复杂问题

📚 知识密集型任务 :处理依赖大量结构化知识的问题

🌐 跨域扩展:轻松支持学术论文、个人知识库、私域/企业知识库等多个领域,Schema人工干预最少化

框架架构

交互式体验界面


核心贡献与创新亮点

基于统一的图检索增强生成智能体范式,Youtu-GraphRAG引入了多项关键创新,这些创新共同构建了一个精密集成的完整框架:
1. Schema引导的层次化知识树构建

  • 🌱 种子图Schema:通过引入有针对性的实体类型、关系类型和属性类型,为自动化提取智能体提供精确约束
  • 📈 可扩展Schema演进:支持动态扩展Schema,实现了跨领域知识的自主演化和高质量抽取
  • 🏢 四层架构设计
    • 第1层(属性层):存储实体的属性信息
    • 第2层(关系层):构建实体间的关系三元组
    • 第3层(关键词层):建立关键词索引体系
    • 第4层(社区层):形成层次化的社区结构
  • 业界应用快速适配:在Schema最小化人为干预的前提下,实现跨领域快速部署

2. 结构语义双重感知的社区检测

  • 🔬 创新社区检测算法设计:巧妙融合结构拓扑特征与子图语义信息,构建全面的知识组织体系,在复杂网络中提炼高维度知识加强推理总结能力,社区生成效果显著优于传统Leiden和Louvain算法
  • 📊 层次化知识树:自然生成既支持自顶向下过滤又支持自底向上推理的结构
  • 📝 智能社区摘要 :利用大语言模型增强社区摘要生成,实现更高层次的知识抽象

🤖 3. 智能迭代检索

  • 🎯 Schema感知的复杂问题分解:深度理解图Schema结构,将复杂查询针对性智能转换为可并行处理的子查询
  • 🔄 迭代反思机制:通过迭代检索思维链进一步实现深度反思,显著提升推理能力


4. 领先的落地级构建、索引与推理能力及用户友好体验

  • 🎯 性能全面优化:通过精心设计的提示策略、索引机制和检索算法,同时降低Token消耗并提升回答精度
  • 🤹‍♀️ 用户体验友好 : output/graphs/四层知识树结构支持neo4j直接导入可视化,知识归纳、推理路径对用户直接可见
  • 并行子问题处理:采用并发机制处理分解后的问题,在复杂场景下仍能保持高效运行
  • 🤔 迭代推理演进:逐步构建答案,并提供清晰的推理轨迹,增强结果可解释性
  • 📊 企业级扩展性:专为私域及企业级部署而设计,新领域接入时人工干预降到最低

📈 5. 公平匿名数据集'AnonyRAG'

  • Link: Hugging Face AnonyRAG
  • 有效防范大语言模型和嵌入模型预训练过程中的知识泄露问题
  • 深度测试GraphRAG在真实场景下的检索性能表现
  • 提供中英文双语版本,支持多语言研究

6. 统一配置管理

  • 🎛️ 集中化参数管理:所有组件均可通过单一YAML文件进行统一配置
  • 🔧 运行时动态调整:支持在程序执行过程中动态修改配置参数
  • 🌍 多环境无缝支持:在图Schema最小人为干预的前提下,轻松实现跨领域迁移
  • 🔄 完善向后兼容:确保现有代码在框架升级后仍能正常运行

实验表现

在GraphRAG-Bench、HotpotQA和MuSiQue等六个专业跨领域多语言的基准数据集上进行了广泛实验,充分证明了Youtu-GraphRAG的企业级扩展性和泛化性。相比最先进的基线方法,Youtu-GraphRAG显著推动了帕累托前沿突破,实现了最高90.71%的Token成本节约16.62%的精度提升 。实验结果充分展现框架的卓越泛化性,能够在Schema干预最小化的前提下实现跨领域的无缝迁移。

项目结构

复制代码
youtu-graphrag/
├── 📁 config/                     # 配置系统
│   ├── base_config.yaml           # 主配置文件
│   ├── config_loader.py           # 配置加载器
│   └── __init__.py                # 配置模块接口
│
├── 📁 data/                       # 数据目录
│
├── 📁 models/                     # 核心模型
│   ├── 📁 constructor/            # 知识图谱构建模块
│   │   └── kt_gen.py              # KTBuilder - 层次化图构建器
│   ├── 📁 retriever/              # 检索模块
│   │   ├── enhanced_kt_retriever.py  # KTRetriever - 主检索器
│   │   ├── agentic_decomposer.py     # 复杂查询解耦
│   └── └── faiss_filter.py           # DualFAISSRetriever - FAISS检索器
│
├── 📁 utils/                      # 工具模块
│   ├── tree_comm.py               # 社区检测算法
│   ├── call_llm_api.py            # 大语言模型API调用
│   ├── eval.py                    # 评估工具
│   └── graph_processor.py         # 图处理工具
│
├── 📁 schemas/                    # 种子Schema定义
├── 📁 assets/                     # 静态资源(图片、图表等)
│
├── 📁 output/                     # 输出目录
│   ├── graphs/                    # 构建完成的知识图谱
│   ├── chunks/                    # 文本分块信息
│   └── logs/                      # 运行日志
│
├── 📁 retriever/                  # 检索缓存
│
├── main.py                       # 🎯 主程序入口
├── setup_env.sh                  # 安装web依赖库
├── start.sh                      # 启动web服务
├── requirements.txt              # 依赖包列表
└── README.md                     # 项目文档

快速开始

提供两种方式来运行并体验示例服务,考虑到基础环境差异的影响,推荐优先使用docker环境来启动。

通过docker环境启动

本启动方式依赖docker环境,建议参照官方文档安装。

bash 复制代码
# 1. 克隆项目
git clone https://github.com/TencentCloudADP/Youtu-GraphRAG

# 2. 按照.env.example文件格式创建 .env
cd Youtu-GraphRAG && cp .env.example .env
# 按照如下格式在.env中配置OpenAI API 格式的 LLM API
# LLM_MODEL=deepseek-chat
# LLM_BASE_URL=https://api.deepseek.com
# LLM_API_KEY=sk-xxxxxx

# 3. 通过dockerfile文件构建镜像
docker build -t youtu_graphrag:v1 .

# 4. 启动docker容器
docker run -d -p 8000:8000 youtu_graphrag:v1

# 5. 访问 http://localhost:8000 体验Youtu-GraphRAG
curl -v http://localhost:8000

直接启动Web服务体验交互式界面

本启动方式依赖Python 3.10和对应的pip环境,建议参照官方文档安装。

bash 复制代码
# 1. 克隆项目
git clone https://github.com/TencentCloudADP/Youtu-GraphRAG

# 2. 按照.env.example文件格式创建 .env
cd Youtu-GraphRAG && touch .env
# 按照如下格式在.env中配置OpenAI API 格式的 LLM API
# LLM_MODEL=deepseek-chat
# LLM_BASE_URL=https://api.deepseek.com
# LLM_API_KEY=sk-xxxxxx

# 3. 配置环境 
./setup_env.sh

# 4. 启动服务
./start.sh

# 5. 访问 http://localhost:8000 体验Youtu-GraphRAG
curl -v http://localhost:8000

体验效果

  • 查询结果准确
  • 前端交互体验很差
  • 查询响应速度有点慢

如果没有梯子,使用Docker启动之前,需要改一下配置Dockerfile里面的环境变量配置,
HF_ENDPOINT 配置要加上去,不然系统用到的sentence-transformers/all-MiniLM-L6-v2模型,没法从huggingface网站下载,国内没有梯子,没法访问huggingface。

bash 复制代码
ENV PYTHONUNBUFFERED=1 \
    PIP_NO_CACHE_DIR=1 \
    PIP_DISABLE_PIP_VERSION_CHECK=1 \
    HF_ENDPOINT=https://hf-mirror.com

Github开源地址

相关推荐
金井PRATHAMA6 小时前
框架系统的多维赋能——论其对自然语言处理深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
金井PRATHAMA20 小时前
语义网络对人工智能自然语言处理中深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
金井PRATHAMA2 天前
框架系统在自然语言处理深度语义分析中的作用、挑战与未来展望
人工智能·自然语言处理·知识图谱
金井PRATHAMA3 天前
产生式规则对人工智能中自然语言处理深层语义分析的影响与启示研究
人工智能·自然语言处理·知识图谱
金井PRATHAMA3 天前
语义网络(Semantic Net)对人工智能中自然语言处理的深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
金井PRATHAMA3 天前
逻辑的回归——一阶谓词逻辑及其变体在自然语言处理深层语义分析中的作用与前瞻
人工智能·机器学习·自然语言处理·数据挖掘·回归·知识图谱
金井PRATHAMA3 天前
产生式规则在自然语言处理深层语义分析中的演变、影响与未来启示
人工智能·自然语言处理·知识图谱
好开心啊没烦恼3 天前
图数据库:基于历史学科的全球历史知识图谱构建,使用Neo4j图数据库实现中国历史与全球历史的关联查询。
大数据·数据库·python·数据挖掘·数据分析·知识图谱·neo4j
金井PRATHAMA4 天前
产生式规则对自然语言处理深层语义分析的影响与启示研究
人工智能·自然语言处理·知识图谱
星川皆无恙5 天前
知识图谱之深度学习:基于 BERT+LSTM+CRF 驱动深度学习识别模型医疗知识图谱问答可视化分析系统
大数据·人工智能·深度学习·bert·知识图谱