企业知识库核心术语与概念全解:空间、权限、版本、RAG、向量检索一次讲清

企业知识库核心术语与概念全解:空间、权限、版本、RAG、向量检索一次讲清

知识库领域有很多"听起来很熟但具体说不清"的术语------RAG 到底是怎么工作的?向量检索和关键词搜索有什么本质区别?五级权限是哪五级?本文用通俗的语言把这些核心概念一次性讲清楚,适合作为团队知识库培训的参考材料。

组织概念

空间(Space)

知识库的顶级容器,相当于一个"独立的文档王国",每个空间有自己的目录树、权限设置和公开范围,典型用法是按业务领域或部门划分------"技术部空间""产品部空间""公司制度空间"。

关键特性:空间之间默认隔离,一个空间内的用户无法看到另一个空间的内容(除非被授权)。

目录(Directory / Folder)

空间内部的文件夹节点,用于组织文档的层级结构,支持多级嵌套,但建议不超过 3 层深度以免导航复杂。

文档(Page / Document)

知识库的最小内容单元,一篇文档可以是一篇富文本、一张思维导图、一个 API 接口定义等,每篇文档有独立的权限、版本历史、标签和协作者设置,像 zyplayer-doc 这样的全功能平台,一篇文档可以是富文本、Markdown、表格、思维导图、流程图、白板、API 文档等十几种类型中的任意一种,不同角色各取所需。

文集(Collection / Site)

将多个空间整合为一个对外发布的"文档站点",文集有独立的域名、导航菜单、品牌元素和访问控制,适合将分散在多个空间的文档整合为一个面向外部的统合站点。

权限概念

角色(Role)

预设的权限集合,常见角色包括:

  • 管理员(Admin):可以管理空间设置、成员和所有文档
  • 协作者(Contributor):可以创建和编辑文档
  • 查看者(Viewer):只能阅读文档,不能编辑

权限粒度(Permission Granularity)

权限可以控制的精细程度,粗粒度权限只能控制到空间级别("能不能进这个空间"),细粒度权限可以控制到单篇文档("能不能看这篇具体文档")。

五级交叉权限

zyplayer-doc 采用的权限模型,具体含义:

  • 三个资源层级:空间 → 目录 → 文档(从粗到细)
  • 两个人员维度:用户(指定具体人)+ 部门(指定整个组织单元)
  • 交叉组合:对某个目录,可以授权"技术部全员可读 + 张三可编辑 + 李四不可见"

五级交叉意味着权限可以在"空间/目录/文档"任一资源层级 × "用户/部门"任一人群维度上自由组合。

AI 概念

RAG(检索增强生成,Retrieval-Augmented Generation)

当前 AI 知识库的核心技术,工作流程:

复制代码
用户提问 → 从知识库中检索相关文档片段 → 将[问题+检索到的文档]发给大模型 → 大模型基于文档生成答案

为什么需要 RAG? 大模型的知识有截止日期,且不知道你公司内部的文档内容,RAG 让大模型在回答前先"翻翻你的资料库",所以能给出基于企业真实文档的答案。

向量检索(Vector Search)

RAG 的第一步"检索相关文档"的实现方式之一,核心思想:

  • 将文档内容转化为一串数字(向量),语义相近的文档向量也相近
  • 将用户问题也转化为向量
  • 在向量空间中查找与问题向量最接近的文档向量

与关键词搜索的区别

  • 关键词搜索:用户搜"数据库连接池",只能命中包含这些字的文档
  • 向量检索:用户搜"怎么避免数据库连接太多把服务器搞崩",也能命中"连接池配置文档"------因为语义相近

分块(Chunking)

将长文档切分为小片段的过程,为什么要分块?

  • 大模型一次能处理的文本量有限
  • 太长的文档包含太多无关信息,影响检索精度
  • 合理的分块大小能提高检索命中率

重排序(Re-ranking)

向量检索返回的候选文档往往有几十上百条,但大模型一次只能处理有限条,重排序是对初筛结果做二次精细排序,选出最相关的前几条发给大模型。

召回率与准确率(Recall & Precision)

  • 召回率:相关文档中,被检索到的比例,"100 篇相关文档,检索到了 80 篇"= 80% 召回率
  • 准确率:检索结果中,真正相关的比例,"检索返回 10 篇,其中 7 篇相关"= 70% 准确率

两者通常是 trade-off:提高召回率可能导致准确率下降(返回更多不相关的结果)。

安全概念

SSO(单点登录,Single Sign-On)

用户用一套账号密码登录企业所有系统,接入 SSO 后,员工不需要为知识库单独注册账号。

LDAP(轻量级目录访问协议)

企业中常见的集中式账号管理协议,Windows AD 域就是基于 LDAP 的,知识库对接 LDAP 后,账号自动与公司域控同步。

OAuth 2.0

第三方登录授权协议,用户可以用飞书、企业微信、钉钉等已有账号扫码登录知识库。

动态水印

在页面内容上叠加包含用户身份信息(用户名、时间戳)的半透明文字,即使内容被截图传播,也能追溯到泄露者。

版本概念

版本历史(Version History)

文档每次保存时自动记录的快照,包含版本号、修改时间、修改人、版本说明。

版本回退(Rollback)

将文档内容恢复到某个历史版本的状态,在误删内容或被错误修改后,回退是最快的恢复手段。

发布概念

开放空间(Public Space)

将知识空间设置为互联网可公开访问,获得链接的用户无需登录即可阅读文档,可设置密码保护。

独立域名(Custom Domain)

为对外发布的知识站点绑定企业自有域名(如 docs.yourcompany.com),而非系统默认域名。

付费阅读(Paid Access)

文档内容需要付费后才能查看,适用于行业报告、培训课程、技术方案等可商业化分发的内容。

运维概念

私有化部署(On-Premises / Self-Hosted)

将知识库系统安装在企业自有服务器上,数据和系统完全由企业自主掌控,与 SaaS(软件即服务,系统由厂商托管在云端)相对,例如 zyplayer-doc 支持完全的私有化部署,数据 100% 存储在用户自有服务器上,同时提供 Docker、java -jar 和宝塔面板三种部署方式。

Docker 部署

将系统和所有依赖打包为"容器镜像",一条命令即可启动,不需要手动配置 Java、MySQL 等环境依赖,zyplayer-doc 的 Docker Compose 部署约 2-5 分钟完成,适合快速体验和标准化运维。

数据库备份

定期将数据库内容导出为文件,存放在安全的地方,备份是数据安全的最后一道防线------服务器崩了、数据被删了、被勒索了,只要备份还在就能恢复。

结语

理解这些核心概念不只是为了"听起来专业",而是为了在选型、配置和运营知识库时能做出更准确的判断,比如:权限粒度决定了敏感文档的保护能力,RAG 配置决定了 AI 问答的准确率,分块策略影响了检索效果------每个概念背后都有对应的实践决策,把这篇文章收藏起来,选型或配置时随时查阅。