RAG(宠物健康AI)

RAG(宠物健康AI)

前言

公司目前的 AI 问诊模块,对于专业知识的回答还有待提高,直接调用 LLM,回复的问诊可能并不满意,所以需要使用 RAG 索引加强。

简略目标 (三个服务)

  1. 数据采集: 爬取 N 个平台的宠物健康知识进行存储。
  2. 知识库构建: 解析平台数据结构,存储为向量和图数据库。(这里尝试过微调模型,也就是通过自己的知识库,基于一个模型训练出新的模型,效果可以,但训练时长过久,价格也偏贵)
  3. 索引增强: AI 问诊模块,会使用到向量和图数据库里的数据增加索引。

简单介绍向量库和图数据库的作用

  • 向量数据库: 将文字转换为多维向量,通过计算语义相似度,快速检索出意思相近的段落。
  • 图数据库 : 三元组,类似于存储了主谓宾,比如 寄生虫引起皮肤瘙痒
    • : 寄生虫
    • : 引起
    • : 皮肤瘙痒
    • 通过其中一个实体就能去查其他边和实体,并且也会存储同义词,做后续的搜索。

技术栈

  • 后端: Python 为主,性能不够 Golang 来凑。
  • 后端 AI 模型: GPT-4o 为主。
  • 数据库: PG 持久化,Redis 缓存,向量数据库 Milvus,图数据库 Nebula。
  • AI 开发辅助: Claude Connect 4.5 系列(为主),偶尔 Gemini 3 Pro。

一、宠物健康知识数据爬虫

  1. 大概找了 7-8 个不同的平台来爬取数据,有的可以直接通过 API 获取,有的是直接爬取网站,通过网页 HTML 元素解析数据。
  2. 把所有平台的宠物健康分类爬下来,根据不同的类型存储到分类表。
  3. 根据分类表去爬取具体的文章内容 ---> 存储到内容表。
  4. 解析文章内容,转换成 Markdown 格式,为后续向量数据库和图数据库做准备。
    • 解析的内容包括(不局限于): 标题, 内容, URL, UUID(根据 URL Hash 出来的唯一标签), 分类路径, 平台类型, 元数据, 拓展数据。

二、数据解析,图数据库与向量数据库存储

  1. 把爬虫阶段的 Markdown 格式数据,迁移到本服务。
  2. 拆分成段落,存储到段落表。包含段落标签、排序、长度等。
  3. 通过 Embedding模型 把段落转换成向量进行向量库存储。
  4. 通过 LLM 把文章中的三元组提取出来,存储到图数据库。
  5. 同义词拓展。

三、宠物健康 AI 服务

  1. 正常的用户模块、Session 模块。
  2. 会根据用户的问题,来判断进度,引导用户去补全关键信息,比如布偶猫最近饮食、大便等情况 (必须包含品种、年龄、病史,会让其选择)。
  3. 安全合规检测,检测内容。
  4. 图片分析,通过 LLM 分析出症状等。
  5. 进度到百分之百时,会把用户的问题做一个归纳,再生成一个问诊报表。
    • 3.1 会把当前上下文提的问题,通过 LLM 总结成一条或者多条概述去查询向量,这样就能查出对应的知识库段落。
    • 3.2 会把当前上下文提的问题,通过 LLM 提取出三元组,且把三元组转换成专业词语 (口语转标准术语),比如不吃东西可以转换为厌食,再去查询图数据库知识。
    • 3.3 以上都是选择出相似度最高的 10 条数据。
  6. 根据已有的知识库,进行 LLM 调用生成问诊报表。
相关推荐
美酒没故事°1 天前
Open WebUI安装指南。搭建自己的自托管 AI 平台
人工智能·windows·ai
云烟成雨TD1 天前
Spring AI Alibaba 1.x 系列【6】ReactAgent 同步执行 & 流式执行
java·人工智能·spring
AI攻城狮1 天前
用 Obsidian CLI + LLM 构建本地 RAG:让你的笔记真正「活」起来
人工智能·云原生·aigc
鸿乃江边鸟1 天前
Nanobot 从onboard启动命令来看个人助理Agent的实现
人工智能·ai
lpfasd1231 天前
基于Cloudflare生态的应用部署与开发全解
人工智能·agent·cloudflare
俞凡1 天前
DevOps 2.0:智能体如何接管故障修复和基础设施维护
人工智能
comedate1 天前
[OpenClaw] GLM 5 关于电影 - 人工智能 - 的思考
人工智能·电影评价
财迅通Ai1 天前
6000万吨产能承压 卫星化学迎来战略窗口期
大数据·人工智能·物联网·卫星化学
liliangcsdn1 天前
Agent Memory智能体记忆系统的示例分析
数据库·人工智能·全文检索
GISer_Jing1 天前
Page-agent MCP结构
前端·人工智能