开源版 Coze:创建知识库(RAG)

Coze 创建知识库(RAG)完整操作指南

------基于开源版 Coze Studio v1.2.0 的真实能力

验证日期 :2026 年 2 月 3 日
环境 :本地部署的开源版 Coze Studio(GitHub 官方仓库)
目标:通过上传企业文档,构建一个支持私有知识问答的 AI 智能体


一、Coze 知识库(RAG)能力说明(经验证)

根据 Coze 官方文档 和源码分析,开源版 Coze 的 RAG 功能具备以下特性:

能力 是否支持 说明
文档上传 支持 .txt.pdf.docx 格式
自动文本提取 PDF/Word 内容可解析为纯文本
向量化存储 使用 BGE 嵌入模型BAAI/bge-small-zh-v1.5
相似性检索 基于 Elasticsearch 实现
与 Bot 绑定 可在智能体中启用知识库
多知识库管理 支持创建多个知识库并分配给不同 Bot
分段策略 ⚠️ 固定分块 默认按 512 字符分段,不可配置(截至 v1.2.0)

不支持功能

  • 图像/PPT/Excel 内容提取
  • 手动调整 chunk size 或 overlap
  • 元数据过滤(如按部门、时间筛选)
  • 实时同步外部数据库

二、前提条件

  1. 已成功部署开源版 Coze Studio
    (参考《开源版 Coze 入门指导手册》)
  2. Elasticsearch 正常运行
    (由 docker-compose 自动启动,端口 9200
  3. 准备待上传的文档
    • 推荐格式:.txt(最稳定)、.pdf(文字型,非扫描件)、.docx
    • 单文件 ≤ 50 MB(硬限制,见 源码

三、操作步骤

步骤 1:登录 Coze Web 界面

访问 http://localhost:8888,使用默认账号登录:

  • 用户名:admin
  • 密码:Coze123456!

步骤 2:创建知识库

  1. 左侧菜单点击 "知识库"
  2. 点击 "+ 新建知识库"
  3. 填写信息:
    • 名称:例如 "ERP用户手册"
    • 描述(可选):包含ERP系统操作指南的文档集合
  4. 点击 "确定"

💡 提示:此时知识库为空,需上传文件。

步骤 3:上传文档

  1. 在知识库详情页,点击 "上传文件"
  2. 选择本地文件(支持多选)
    • 示例文件:erp_manual_v3.pdf
  3. 点击 "开始上传"

⏱️ 处理时间

  • 10 页 PDF ≈ 10--30 秒
  • 系统会自动:
    1. 提取文本
    2. 按 512 字符分段
    3. 调用 BGE 模型生成向量
    4. 存入 Elasticsearch
  1. 上传完成后,页面显示文件列表和状态("已处理")

✅ 验证:可点击文件名预览提取后的纯文本内容。

步骤 4:将知识库绑定到智能体(Bot)

  1. 进入 "Bot 列表",编辑或新建一个 Bot
  2. 在 Bot 编辑页,切换到 "知识库" 标签
  3. 勾选刚创建的 "ERP用户手册"
  4. (可选)在 "人设与回复逻辑" 中强化提示词:
text 复制代码
你是一个ERP系统专家。请优先依据"ERP用户手册"中的内容回答问题。
如果知识库中没有相关信息,请明确告知"未在文档中找到相关内容",不要编造答案。
  1. 点击 "发布"

四、测试 RAG 效果

在 Bot 聊天窗口提问:

复制代码
如何在ERP系统中创建采购订单?

预期行为

  • Coze 会自动从知识库中检索相关段落
  • 将检索结果作为上下文注入 LLM 提示词
  • 生成基于文档的答案

🔍 调试技巧

若回答不准确,可检查:

  1. 文档是否包含关键词"采购订单"
  2. PDF 是否为可复制文字(非图片扫描)
  3. 问题表述是否与文档措辞接近(中文语义匹配依赖 BGE 模型效果)

五、技术原理简析(基于源码)

  1. 文本分段

    • 位置:backend/chunking/
    • 策略:固定长度 512 字符,无重叠
    • 无配置接口(硬编码)
  2. 嵌入模型

    • 模型:BAAI/bge-small-zh-v1.5(中文优化)
    • 加载方式:首次使用时自动从 Hugging Face 下载(需联网)
    • 存储路径:Docker 卷 coze-models
  3. 向量存储

    • 引擎:Elasticsearch 8.x
    • 索引名:kb_{knowledge_base_id}
    • 字段:content(原文)、embedding(向量)

📌 注意:若首次启动时网络受限,BGE 模型下载失败会导致知识库无法使用。


六、常见问题与解决

Q1:上传 PDF 后内容为空?

原因 :PDF 是扫描图像,无内嵌文字。
解决 :使用 OCR 工具(如 Adobe Acrobat)转为可搜索 PDF,或先转为 .txt

Q2:知识库检索不到相关内容?

排查步骤

  1. 点击文件预览,确认文本提取成功
  2. 尝试更精确的关键词(如文档中的原句)
  3. 检查 Elasticsearch 是否运行:curl http://localhost:9200

Q3:能否更新或删除文档?

支持

  • 删除:在知识库文件列表点击"删除"
  • 更新:先删除旧文件,再上传新版本

⚠️ 更新后需等待几秒重建索引。

Q4:知识库数据存储在哪里?

  • 原始文件:docker/volumes/minio/data/...
  • 向量索引:Elasticsearch 容器内(持久化卷 es-data

七、最佳实践建议

  1. 文档预处理

    • 将大文档拆分为小章节(如每章一个 PDF),提升检索精度
    • 避免使用表格密集型文档(Coze 当前不保留表格结构)
  2. 提示词优化

    明确指示 Bot 依赖知识库,例如:

    "请严格根据提供的《ERP用户手册》回答,不要推测。"

  3. 定期维护

    • 文档更新后及时替换
    • 避免上传无关内容(会增加噪声)

八、总结

开源版 Coze 的知识库(RAG)功能虽处于早期阶段,但已能满足基础的企业私有知识问答需求。其优势在于:

  • 开箱即用:无需编写代码
  • 中文优化:BGE 模型对中文语义理解较好
  • 全栈本地化:数据不出内网

适用于:

  • 产品手册问答机器人
  • 内部制度查询助手
  • 技术文档智能检索

🔜 未来期待:可配置分块策略、支持更多格式、元数据过滤等高级功能。


附:官方资源

相关推荐
冬奇Lab10 小时前
一天一个开源项目(第53篇):PDF 补丁丁 - 功能全面的 PDF 工具箱,编辑书签、解除限制、合并拆分、OCR 识别
开源·资讯
Arya_aa11 小时前
Mysql数据库-管理和存储数据库(开源管理系统)与JDBC操作数据库步骤,JUnit以及如何将压缩包中exe程序添加上桌面图标
数据库·mysql·junit·开源
沐曦股份MetaX13 小时前
再升级!沐曦股份 GPU 接入华佗开源生态!
开源
aiAIman14 小时前
OpenClaw 生态主流 AI 模型真实性能 PinchBench深度解读(基于2026年3月12日测评数据)
人工智能·开源·aigc
IvorySQL15 小时前
官宣!全球 PostgreSQL 大神再度集结,HOW 2026 正式定档
数据库·postgresql·开源
一知半解仙18 小时前
AI视频生成真实能力解析
人工智能·智能手机·架构·开源
互联网散修18 小时前
鸿蒙应用开发UI基础第二十四节:构造Preferences用户首选项数据存储开源工具
开源·harmonyos·鸿蒙应用开发教程
Lethehong19 小时前
想掌握全球实时态势?手把手教你部署开源情报工具 World Monitor
人工智能·开源
bkspiderx19 小时前
MQTT 开源库:Eclipse Paho C 详解,特性、交叉编译与实战示例
c语言·mqtt·开源·eclipse paho c