QDKT5-2RAG 知识库&客服产品路演 + 点评

一、课程核心主题

工作流原子化拆解方法RAG知识库的灵活应用

二、核心知识点详解

(一)工作流原子化拆解:用AI辅助高效设计流程

1. 核心痛点

新手设计AI工作流时容易"想到哪写到哪",流程混乱、输入输出不清晰,导致落地困难。

2. 核心方法:AI辅助原子化拆解

通过精准提示词,让大模型(推荐GPT-4.5/SONNET 4.5、Kimi)帮忙拆解流程,确保每个节点只完成一项任务,且输入输出结构化。

3. 实操案例:差旅发票审核场景

(1)明确场景需求(给AI的提示词核心要素)

  • 场景目标:差旅发票审核的大模型赋能产品化实现
  • 核心流程:员工上传发票(图片/PDF)→ 提取关键信息 → 按规则审核 → 输出审核报告
  • 关键规则:
  1. 提取字段:发票类型、目的地、金额、时间、开票方税号
  1. 报销限制:仅限住宿、出行、餐饮类目
  1. 职级额度:不同职级员工有不同报销额度
  1. 行程闭环:目的地与消费记录需连续,无断档
  • 可用工具节点:文档读取(提取PDF文本)、大模型节点(视觉/文本识别)、代码节点(Python变量计算)、分支节点(条件判断)、合并节点(多分支输出合并)、迭代节点(数组循环执行)

(2)AI拆解后的原子化流程(每个节点最小化任务)

|------|--------|----------------|-----------|-------------------|-------------------|
| 节点序号 | 节点名称 | 核心任务 | 输入 | 输出 | 依赖工具 |
| 1 | 文档类型识别 | 判断发票是图片还是PDF | 员工上传的文件 | 文件类型(图片/PDF) | 分支节点 |
| 2 | 文档内容提取 | 提取发票文本/视觉信息 | 图片/PDF文件 | 发票原始信息(文本/结构化字段) | 文档读取节点+大模型视觉/文本节点 |
| 3 | 信息融合校验 | 校验字段一致性,补充缺失值 | 原始提取信息 | 校验后的结构化字段(含置信度评分) | 大模型节点 |
| 4 | 报销类目审核 | 判断是否属于住宿/出行/餐饮 | 校验后字段 | 类目审核结果(通过/拒绝+原因) | 代码节点(规则判断) |
| 5 | 职级额度校验 | 对比员工职级与报销金额 | 员工职级+发票金额 | 额度审核结果(通过/超限) | 代码节点(变量计算) |
| 6 | 行程闭环校验 | 检查目的地与消费时间连续性 | 发票目的地+时间 | 闭环审核结果(通过/断档) | 大模型节点(逻辑推理) |
| 7 | 审核报告生成 | 汇总所有审核结果 | 各节点审核结果 | 结构化审核报告(含问题明细) | 大模型节点 |

(3)扩展案例:企业尽调报告生成工作流

  • 核心逻辑:输入企业信息(流水、纳税证明、财务报表等)→ 多维度信息提取 → 分模块审计(基本信息、财务健康度、纳税合规性、法律风险)→ 交叉验证 → 生成综合报告
  • 效率提升:AI拆解流程+撰写提示词,1小时即可完成传统1-2天的工作量

4. 关键技巧

  • 提示词要明确"原子化要求":每个节点只做一件事,必须输出结构化数据
  • 无需纠结节点顺序,AI会自动梳理逻辑
  • 复杂场景可分阶段拆解(如先拆解信息提取阶段,再拆解审核阶段)

(二)RAG知识库的灵活应用:不止于"问答"

1. 传统RAG痛点

仅用于"提问-回答",知识复用率低,无法适配动态创作、规则匹配等场景。

2. 创新应用:RAG+提示词生成(知识复用进阶)

(1)核心场景

企业内部方法论沉淀(如营销文案技巧、业务操作规范),员工创作时自动调用相关知识生成高质量提示词,辅助AI创作。

(2)实现流程

  1. 知识萃取:将优质文章/文档拆解为"方法论名称+使用场景+具体方法"的结构化片段
  • 示例:
  • 方法论名称:短视频引流文案万能公式
  • 使用场景:AI产品经理实训营引流
  • 具体方法:痛点+解决方案+限时福利+行动指令
  1. 知识库存储:将结构化片段存入RAG知识库(支持API写入,本地部署无字数限制,云端需会员)
  1. 需求匹配:员工输入创作需求(如"写AI产品经理实训营引流文案")
  1. 提示词生成:RAG检索相关方法论,大模型基于方法论生成精准提示词
  1. 内容创作:用生成的提示词调用AI创作最终内容

(3)实操步骤

  • 工具准备:RAG知识库(支持API读写)、工作流工具(如Divide)、大模型(GPT-4.5/SONNET)
  • 关键代码节点:
  1. 文档萃取节点:输入文章URL → 大模型提取结构化方法论 → 输出数组格式
  1. 知识库写入节点:通过API将方法论片段写入RAG(本地部署无需会员)
  1. 知识检索节点:根据用户需求检索相关方法论
  1. 提示词生成节点:大模型基于"需求+方法论"生成创作提示词
  1. 内容生成节点:用提示词调用AI创作内容

3. 知识库搭建与优化技巧

(1)文档预处理:解决"检索不准"问题

  • 分级标题拼接:将一级/二级/三级标题拼接为段落前缀(如"数据集成-操作步骤-接口采集"),提升检索匹配度
  • 图片优化:图片命名用短语义名称(如"data_source.png"),避免长数字命名(易导致模型出错)
  • 分块原则:
  • 功能说明类文档:按"功能模块"分块,每块包含完整操作步骤(不拆分碎)
  • 规则类文档:按"规则维度"分块(如报销规则按"类目/额度/闭环"分块)

(2)父子分段用法(Divide工具)

  • 父段落:整个文档或大模块(如"接口采集完整操作说明")
  • 子段落:文档内二级/三级标题对应的内容(如"接口采集-概述""接口采集-步骤1")
  • 检索逻辑:检索子段落匹配需求,最终将父段落完整内容传给大模型(确保上下文完整)
  • 分隔符设置:父段落用"###",子段落用"##",避免混淆

(三)常见问题答疑(零基础必看)

1. RAG+数据库:表结构(DB Schema)如何存入知识库?

  • 问题:表结构+字段解释超长(超2000字符),无法直接存入,且检索匹配度低
  • 解决方案(迂回方案):
  1. 知识库不存完整表结构,只存"表名称+应用场景描述"(如"用户表-存储员工职级与报销额度")
  1. 通过代码节点调用数据库API,实时获取表结构元数据(SQL数据库支持通过代码查询表结构)
  1. 将"场景描述匹配+实时获取表结构"结合,大模型基于表结构生成SQL语句
  • 关键提醒:大模型写SQL的命中率约60%,生产环境需搭配人工校验

2. 报销审核场景:如何调用知识库查询公司制度?

  • 问题:直接用发票信息查询制度,匹配度低
  • 解决方案:
  1. 先通过大模型识别发票审核的"异常维度"(如"类目不符""额度超限")
  1. 用异常维度作为检索关键词(如"报销类目 住宿 餐饮 出行")查询知识库
  1. 大模型结合检索到的制度+异常信息,向员工解释拒绝原因

3. 外部数据请求:如何用HTTP请求获取股票价格?

  • 核心需求:根据公司名查询股票代码+实时收盘价
  • 实操步骤:
  1. 获取股票代码:调用新浪财经免费API(GET请求)
  • 响应处理:用正则表达式提取股票代码(如600519)
  1. 获取实时价格:调用聚合数据API(需充值,免费版100次/天)
  • 请求类型:POST
  • 请求参数:股票代码+API密钥(appcode)
  • 响应处理:提取实时收盘价、涨跌幅度
  1. 工作流节点:用户输入公司名 → 代码节点请求股票代码 → 代码节点请求价格 → 大模型汇总结果

4. 文档分块问题:长文档(如操作手册)如何分块?

  • 原则:"完整功能+最小粒度"
  • 示例:接口采集操作手册(含概述、步骤1-5、注意事项)→ 作为1个父段落,内部按"概述""步骤1"等拆分子段落
  • 避免:拆分过细(如步骤1拆成"打开页面""输入参数")导致上下文断裂

三、工具推荐与使用限制

|--------------------|----------------|------------------|-------------------|
| 工具名称 | 核心用途 | 使用限制 | 推荐场景 |
| GPT-4.5/SONNET 4.5 | 流程拆解、提示词生成 | 付费,上下文长度8K-32K | 复杂场景拆解、高质量提示词撰写 |
| Kimi | 长文档处理、逻辑推理 | 免费版有字数限制,高级推理需付费 | 长文档萃取、多步骤逻辑梳理 |
| Divide | 工作流编排 | 父子分段功能需手动调试 | 多节点联动场景(如审核、报告生成) |
| 本地部署RAG | 知识库存储与API调用 | 需一定技术基础,无字数限制 | 企业内部知识沉淀、高频复用场景 |
| 聚合数据API | 外部数据请求(股票、天气等) | 免费版有次数限制,实时数据需付费 | 动态数据查询场景 |

四、学习建议(零基础学员)

  1. 先从简单场景入手:优先实践"客服问答""发票审核"等必做场景(面试高频)
  1. 工具选择:初期用Kimi(免费版足够)+ Divide(可视化操作),无需纠结复杂代码
  1. 知识库搭建:先做"文档预处理"(分级标题拼接、图片重命名),再尝试API写入
  1. 问题解决:遇到超长文本、检索不准等问题,优先用"迂回方案"(如代码节点替代知识库存储)
  1. 实操频率:按课程要求完成课后练习,避免"只听不做",后续无专门答疑时间
相关推荐
嘻嘻仙人1 小时前
从原理到代码,拆解AutoGen框架开发实践
人工智能·agent
Forrit1 小时前
AI多Agent 用户-会话-记忆 建表&架构总结
人工智能·架构
发哥来了1 小时前
横向评测:主流AI培训厂家的培训效果对比
大数据·人工智能·ai
xuco1 小时前
如何使用 Semantic Router 减少 Token 使用量
人工智能·agent
qq_411262421 小时前
基于 ESP32-S3 + VB6824 + I2S Codec 的四博AI睡眠眼罩/AI智能音箱方案:白噪音、音乐播放与AI情绪陪伴实现
大数据·人工智能·智能音箱
在线打码1 小时前
Claude Code 内网离线极简部署指南
人工智能·ai·npm·node·claudecode
大力财经1 小时前
智能体时代如何衡量“DAA“?百度新全栈AI云给出答案
人工智能·百度·dubbo
浔川python社1 小时前
浔川社团联合会关于 2026 年度重点项目入选公告
人工智能·浔川代码编辑器v4.1.0
夜影风1 小时前
LangGraph实战:搭建一个带人工介入的智能客服系统
人工智能·langchain·langgraph