MCP驱动的Rgentic RRG(向量数据库+网络搜索)

手把手教你打造一个智能 AI 助手:让 AI 能查资料、能搜索

项目地址:Rgentic RRG

🎯 项目功能

  • 📚 查询你的专业知识库 - 比如公司内部文档、技术手册
  • 🌐 搜索最新网络信息 - 实时获取新闻、最新动态
  • 🔧 自动选择合适的工具 - AI 会自己判断该查资料还是该搜索

效果展示:

复制代码
你问:Python 3.13 有什么新特性?
AI:[自动搜索网络] → 返回最新信息 ✅

你问:什么是监督学习?
AI:[查询知识库] → 返回准确定义 ✅

📖 项目介绍

这是个什么项目?

这是一个基于 MCP 协议的智能 RAG 工具,简单来说就是:

给 AI 装上"外挂",让它能用工具!

就像给孩子一本字典和一台电脑:

  • 📖 字典 = 本地知识库(专业、准确)
  • 💻 电脑 = 网络搜索(实时、全面)
  • 🧠 孩子的大脑 = AI 模型(理解、综合)

核心功能

1. 知识库检索工具

  • 存储你的专业知识(机器学习 FAQ 示例)
  • 智能语义搜索(不是简单的关键词匹配)
  • 秒级响应

2. 网络搜索工具

  • 接入真实搜索引擎
  • 获取最新资讯
  • 自动整理结果

支持的 AI 应用

  • ✅ Cherry Studio(推荐)
  • ✅ Cursor
  • ✅ Claude Desktop
  • ✅ 任何支持 MCP 的应用

🧠 工作原理(不懂技术也能看懂)

传统 AI 的问题

复制代码
你:Python 3.13 有什么新特性?
AI:我不知道最新版本...(因为训练数据是旧的)❌

加上工具后

复制代码
你:Python 3.13 有什么新特性?
AI:让我搜索一下... [调用搜索工具]
AI:根据最新搜索,Python 3.13 新增了... ✅

三步工作流程

复制代码
第1步:你提问
   ↓
第2步:AI 判断需要什么信息
   ├─ 专业知识? → 查知识库
   ├─ 最新信息? → 搜网络
   └─ 常识问题? → 直接回答
   ↓
第3步:综合信息给你答案

技术原理(简化版)

知识库检索怎么工作的?

  1. 存储阶段

    复制代码
    问题:什么是监督学习?
    答案:监督学习是...
    
    → 转成数字 → [0.23, -0.45, 0.67, ...]
    → 存到向量数据库
  2. 检索阶段

    复制代码
    用户问:监督学习是啥?
    → 转成数字 → [0.21, -0.43, 0.69, ...]
    → 找最相似的 → 找到了!相似度 92%
    → 返回答案

为什么这样更准?

  • 不是简单匹配文字
  • 理解语义("监督学习"和"监督学习是啥"意思一样)
  • 即使你问法不同,也能找到答案

🚀 5分钟快速上手

准备工作

需要安装:

  1. Python 3.8+(编程语言)
  2. Ollama(本地 AI 模型,免费)
  3. Cherry Studio / Cursor(AI 对话工具,任选其一)

可选:

  • Serper API Key(用于网络搜索,免费额度够用)

第一步:安装项目

bash 复制代码
# 1. 下载项目
git clone https://github.com/your-repo/Rgentic-RRG.git
cd Rgentic-RRG

# 2. 创建虚拟环境
python -m venv .venv

# Windows 激活
.venv\Scripts\activate

# Mac/Linux 激活
source .venv/bin/activate

# 3. 安装依赖
pip install -r requirements.txt

第二步:安装 Ollama 模型

bash 复制代码
# 1. 下载 Ollama
# 访问 https://ollama.com 下载安装

# 2. 下载 AI 模型(约 4GB)
ollama pull qwen2.5:7b-instruct

# 3. 验证安装
ollama list
# 应该能看到 qwen2.5:7b-instruct

第三步:本地测试(看看效果)

bash 复制代码
# 运行测试脚本
.venv\Scripts\python test_llamaindex.py

你会看到:

复制代码
🧪 测试2: LlamaIndex 对比测试
=====================================

❓ 请输入你的问题: 什么是机器学习?

┌─ 🤖 纯模型回答
│  机器学习是计算机科学的一个分支...
└────────────────────────────────

┌─ 🔧 知识库回答
│  机器学习让计算机能够从数据中学习...
│  (更准确、更专业)
└────────────────────────────────

┌─ 🌐 网络搜索回答
│  根据最新搜索结果...
│  (最新、最全面)
└────────────────────────────────

三种回答的区别:

  • 🤖 纯模型:基于训练数据,通用但可能过时
  • 🔧 知识库:基于你的资料,专业且准确
  • 🌐 网络搜索:最新信息,但需要 API Key

输入 quit 退出测试。


第四步:集成到 Cherry Studio

为什么选 Cherry Studio?

  • 界面美观易用
  • 支持多种 AI 模型
  • 完美支持 MCP 工具
配置步骤

1. 打开 MCP 设置

复制代码
Cherry Studio → 设置 → MCP → 右上角"添加" → "从 JSON 导入"

2. 粘贴配置(修改为你的路径)

json 复制代码
{
  "mcpServers": {
    "rag-ml-assistant": {
      "command": "D:\\Projects\\MCP\\Rgentic RRG\\.venv\\Scripts\\python.exe",
      "args": ["D:\\Projects\\MCP\\Rgentic RRG\\server.py"]
    }
  }
}

⚠️ 重要:

  • D:\\Projects\\MCP\\Rgentic RRG 改成你的项目路径
  • Windows 用双反斜杠 \\

3. 验证连接

重启 Cherry Studio,进入设置查看:

  • 状态应显示:✅ 已连接
  • 能看到 2 个工具
开始使用

在 Cherry Studio 对话框输入:

复制代码
测试 1:什么是交叉验证?
→ AI 会自动查询知识库

测试 2:搜索最新的 AI 新闻
→ AI 会自动搜索网络(需要配置 API Key)

测试 3:解释深度学习并找最新应用
→ AI 会先查知识库,再搜索网络

🎨 自定义你的知识库

添加你的专业知识

打开 rag_app/data.py,找到 ML_FAQ

python 复制代码
ML_FAQ = [
    {
        "id": 1,
        "q": "什么是监督学习?",
        "a": "监督学习将输入映射到标记输出..."
    },
    # 添加你的内容
    {
        "id": 100,
        "q": "我们公司的产品是什么?",
        "a": "我们公司主营..."
    },
]

支持的格式:

  • 问答对(FAQ)
  • 技术文档
  • 产品说明
  • 任何文本内容

🌐 配置网络搜索(可选)

获取免费 API Key

  1. 访问 https://serper.dev
  2. 注册账号(支持 Google 登录)
  3. 复制 API Key
  4. 免费额度:2500 次/月

配置到项目

编辑 .env 文件:

bash 复制代码
SERPER_API_KEY=你的API密钥

测试搜索:

复制代码
你:搜索一下今天的新闻
AI:[调用搜索工具] → 返回最新新闻

💡 实用技巧

1. 如何让 AI 使用工具?

明确指示:

复制代码
✅ "用知识库查询:什么是监督学习"
✅ "搜索一下:Python 最新版本"

让 AI 自己判断:

复制代码
✅ "告诉我深度学习的最新应用"
→ AI 会自己决定查知识库还是搜网络

2. 如何判断工具被调用了?

在 Cherry Studio 中:

  • 工具调用会显示 [tool] 标记
  • 可以在设置中查看工具调用日志
  • 回答会更准确、更具体

3. 速度慢怎么办?

优化建议:

  • 使用更小的模型(qwen2.5:1.5b)
  • 减少搜索结果数量
  • 启用缓存

📊 效果对比

真实测试案例

问题:如何防止过拟合?

方式 回答 评价
纯模型 "可以用正则化、早停..." ⭐⭐⭐ 通用但不够专业
知识库 "交叉验证、增加数据..." ⭐⭐⭐⭐⭐ 专业且准确
搜索 "最新方法包括..." ⭐⭐⭐⭐ 全面但速度慢

结论:

  • 专业问题 → 用知识库(快速、准确)
  • 最新信息 → 用搜索(全面、实时)
  • 常识问题 → 纯模型就够了

🎯 应用场景

1. 技术文档助手

复制代码
存储:API 文档、技术规范
用途:快速查询接口、配置说明

2. 客服机器人

复制代码
存储:产品 FAQ、常见问题
用途:自动回答客户咨询

3. 学习助手

复制代码
存储:课程笔记、知识点
用途:复习、答疑

4. 新闻助手

复制代码
功能:实时搜索 + 知识整理
用途:快速了解行业动态

🚀 进阶玩法

1. 连接到数据库

python 复制代码
# 从数据库加载知识
import sqlite3
conn = sqlite3.connect('knowledge.db')
# 查询并加载到 ML_FAQ

2. 导入 PDF 文档

python 复制代码
# 使用 PyPDF2 解析 PDF
import PyPDF2
# 提取文本并添加到知识库

3. 自动更新知识库

python 复制代码
# 定时任务更新
from apscheduler.schedulers.background import BackgroundScheduler
# 每天自动爬取最新内容

📚 总结

你学到了什么?

  1. ✅ MCP 是什么,能干什么
  2. ✅ RAG 如何让 AI 更智能
  3. ✅ 如何搭建自己的智能助手
  4. ✅ 如何自定义知识库

⭐ 觉得有用?欢迎 Star 支持!

附录:命令速查表

bash 复制代码
# 安装
git clone [项目地址]
cd Rgentic-RRG
python -m venv .venv
.venv\Scripts\activate
pip install -r requirements.txt

# 测试
ollama pull qwen2.5:7b-instruct
.venv\Scripts\python test_llamaindex.py

# 运行服务器(供 MCP 使用)
.venv\Scripts\python server.py

# 常用路径
# 配置文件:.env
# 知识库:rag_app/data.py
# MCP 配置:Cherry Studio 设置 → MCP
相关推荐
CoderJia程序员甲2 小时前
GitHub 热榜项目 - 日榜(2025-11-11)
ai·开源·大模型·github·ai教程
ValhallaCoder2 小时前
Day33-动态规划
数据结构·python·算法·动态规划
only-code2 小时前
100% 本地 MCP 客户端 + SQLite 服务器(LlamaIndex + Ollama + Qwen2.5)
python·mcp
居7然2 小时前
详解监督微调(SFT):大模型指令遵循能力的核心构建方案
人工智能·分布式·架构·大模型·transformer
程序员爱钓鱼3 小时前
Python编程实战 - Python实用工具与库 - 爬虫防封与代理机制
后端·python·ipython
dongchen。3 小时前
MySQL第四次作业
数据库·mysql
程序员爱钓鱼3 小时前
Python编程实战 - Python实用工具与库 - 操作Excel:openpyxl / pandas
后端·python·面试
普普通通的南瓜3 小时前
SM2 vs RSA/ECC:双算法 SSL 证书的性能对比与优化方案
数据库·网络协议·ssl
猫头虎3 小时前
Rust评测案例:Rust、Java、Python、Go、C++ 实现五大排序算法的执行时间效率比较(基于 OnlineGDB 平台)
java·开发语言·c++·python·golang·rust·排序算法