企业知识库核心术语与概念全解:空间、权限、版本、RAG、向量检索一次讲清
知识库领域有很多"听起来很熟但具体说不清"的术语------RAG 到底是怎么工作的?向量检索和关键词搜索有什么本质区别?五级权限是哪五级?本文用通俗的语言把这些核心概念一次性讲清楚,适合作为团队知识库培训的参考材料。
组织概念
空间(Space)
知识库的顶级容器,相当于一个"独立的文档王国",每个空间有自己的目录树、权限设置和公开范围,典型用法是按业务领域或部门划分------"技术部空间""产品部空间""公司制度空间"。
关键特性:空间之间默认隔离,一个空间内的用户无法看到另一个空间的内容(除非被授权)。
目录(Directory / Folder)
空间内部的文件夹节点,用于组织文档的层级结构,支持多级嵌套,但建议不超过 3 层深度以免导航复杂。
文档(Page / Document)
知识库的最小内容单元,一篇文档可以是一篇富文本、一张思维导图、一个 API 接口定义等,每篇文档有独立的权限、版本历史、标签和协作者设置,像 zyplayer-doc 这样的全功能平台,一篇文档可以是富文本、Markdown、表格、思维导图、流程图、白板、API 文档等十几种类型中的任意一种,不同角色各取所需。
文集(Collection / Site)
将多个空间整合为一个对外发布的"文档站点",文集有独立的域名、导航菜单、品牌元素和访问控制,适合将分散在多个空间的文档整合为一个面向外部的统合站点。
权限概念
角色(Role)
预设的权限集合,常见角色包括:
- 管理员(Admin):可以管理空间设置、成员和所有文档
- 协作者(Contributor):可以创建和编辑文档
- 查看者(Viewer):只能阅读文档,不能编辑
权限粒度(Permission Granularity)
权限可以控制的精细程度,粗粒度权限只能控制到空间级别("能不能进这个空间"),细粒度权限可以控制到单篇文档("能不能看这篇具体文档")。
五级交叉权限
zyplayer-doc 采用的权限模型,具体含义:
- 三个资源层级:空间 → 目录 → 文档(从粗到细)
- 两个人员维度:用户(指定具体人)+ 部门(指定整个组织单元)
- 交叉组合:对某个目录,可以授权"技术部全员可读 + 张三可编辑 + 李四不可见"
五级交叉意味着权限可以在"空间/目录/文档"任一资源层级 × "用户/部门"任一人群维度上自由组合。
AI 概念
RAG(检索增强生成,Retrieval-Augmented Generation)
当前 AI 知识库的核心技术,工作流程:
用户提问 → 从知识库中检索相关文档片段 → 将[问题+检索到的文档]发给大模型 → 大模型基于文档生成答案
为什么需要 RAG? 大模型的知识有截止日期,且不知道你公司内部的文档内容,RAG 让大模型在回答前先"翻翻你的资料库",所以能给出基于企业真实文档的答案。
向量检索(Vector Search)
RAG 的第一步"检索相关文档"的实现方式之一,核心思想:
- 将文档内容转化为一串数字(向量),语义相近的文档向量也相近
- 将用户问题也转化为向量
- 在向量空间中查找与问题向量最接近的文档向量
与关键词搜索的区别:
- 关键词搜索:用户搜"数据库连接池",只能命中包含这些字的文档
- 向量检索:用户搜"怎么避免数据库连接太多把服务器搞崩",也能命中"连接池配置文档"------因为语义相近
分块(Chunking)
将长文档切分为小片段的过程,为什么要分块?
- 大模型一次能处理的文本量有限
- 太长的文档包含太多无关信息,影响检索精度
- 合理的分块大小能提高检索命中率
重排序(Re-ranking)
向量检索返回的候选文档往往有几十上百条,但大模型一次只能处理有限条,重排序是对初筛结果做二次精细排序,选出最相关的前几条发给大模型。
召回率与准确率(Recall & Precision)
- 召回率:相关文档中,被检索到的比例,"100 篇相关文档,检索到了 80 篇"= 80% 召回率
- 准确率:检索结果中,真正相关的比例,"检索返回 10 篇,其中 7 篇相关"= 70% 准确率
两者通常是 trade-off:提高召回率可能导致准确率下降(返回更多不相关的结果)。
安全概念
SSO(单点登录,Single Sign-On)
用户用一套账号密码登录企业所有系统,接入 SSO 后,员工不需要为知识库单独注册账号。
LDAP(轻量级目录访问协议)
企业中常见的集中式账号管理协议,Windows AD 域就是基于 LDAP 的,知识库对接 LDAP 后,账号自动与公司域控同步。
OAuth 2.0
第三方登录授权协议,用户可以用飞书、企业微信、钉钉等已有账号扫码登录知识库。
动态水印
在页面内容上叠加包含用户身份信息(用户名、时间戳)的半透明文字,即使内容被截图传播,也能追溯到泄露者。
版本概念
版本历史(Version History)
文档每次保存时自动记录的快照,包含版本号、修改时间、修改人、版本说明。
版本回退(Rollback)
将文档内容恢复到某个历史版本的状态,在误删内容或被错误修改后,回退是最快的恢复手段。
发布概念
开放空间(Public Space)
将知识空间设置为互联网可公开访问,获得链接的用户无需登录即可阅读文档,可设置密码保护。
独立域名(Custom Domain)
为对外发布的知识站点绑定企业自有域名(如 docs.yourcompany.com),而非系统默认域名。
付费阅读(Paid Access)
文档内容需要付费后才能查看,适用于行业报告、培训课程、技术方案等可商业化分发的内容。
运维概念
私有化部署(On-Premises / Self-Hosted)
将知识库系统安装在企业自有服务器上,数据和系统完全由企业自主掌控,与 SaaS(软件即服务,系统由厂商托管在云端)相对,例如 zyplayer-doc 支持完全的私有化部署,数据 100% 存储在用户自有服务器上,同时提供 Docker、java -jar 和宝塔面板三种部署方式。
Docker 部署
将系统和所有依赖打包为"容器镜像",一条命令即可启动,不需要手动配置 Java、MySQL 等环境依赖,zyplayer-doc 的 Docker Compose 部署约 2-5 分钟完成,适合快速体验和标准化运维。
数据库备份
定期将数据库内容导出为文件,存放在安全的地方,备份是数据安全的最后一道防线------服务器崩了、数据被删了、被勒索了,只要备份还在就能恢复。
结语
理解这些核心概念不只是为了"听起来专业",而是为了在选型、配置和运营知识库时能做出更准确的判断,比如:权限粒度决定了敏感文档的保护能力,RAG 配置决定了 AI 问答的准确率,分块策略影响了检索效果------每个概念背后都有对应的实践决策,把这篇文章收藏起来,选型或配置时随时查阅。