企业知识库核心术语与概念全解：空间、权限、版本、RAG、向量检索一次讲清

知识库领域有很多"听起来很熟但具体说不清"的术语------RAG 到底是怎么工作的？向量检索和关键词搜索有什么本质区别？五级权限是哪五级？本文用通俗的语言把这些核心概念一次性讲清楚，适合作为团队知识库培训的参考材料。

组织概念

空间（Space）

知识库的顶级容器，相当于一个"独立的文档王国"，每个空间有自己的目录树、权限设置和公开范围，典型用法是按业务领域或部门划分------"技术部空间""产品部空间""公司制度空间"。

关键特性：空间之间默认隔离，一个空间内的用户无法看到另一个空间的内容（除非被授权）。

目录（Directory / Folder）

空间内部的文件夹节点，用于组织文档的层级结构，支持多级嵌套，但建议不超过 3 层深度以免导航复杂。

文档（Page / Document）

知识库的最小内容单元，一篇文档可以是一篇富文本、一张思维导图、一个 API 接口定义等，每篇文档有独立的权限、版本历史、标签和协作者设置，像 zyplayer-doc 这样的全功能平台，一篇文档可以是富文本、Markdown、表格、思维导图、流程图、白板、API 文档等十几种类型中的任意一种，不同角色各取所需。

文集（Collection / Site）

将多个空间整合为一个对外发布的"文档站点"，文集有独立的域名、导航菜单、品牌元素和访问控制，适合将分散在多个空间的文档整合为一个面向外部的统合站点。

权限概念

角色（Role）

预设的权限集合，常见角色包括：

管理员（Admin）：可以管理空间设置、成员和所有文档
协作者（Contributor）：可以创建和编辑文档
查看者（Viewer）：只能阅读文档，不能编辑

权限粒度（Permission Granularity）

权限可以控制的精细程度，粗粒度权限只能控制到空间级别（"能不能进这个空间"），细粒度权限可以控制到单篇文档（"能不能看这篇具体文档"）。

五级交叉权限

zyplayer-doc 采用的权限模型，具体含义：

三个资源层级：空间 → 目录 → 文档（从粗到细）
两个人员维度：用户（指定具体人）+ 部门（指定整个组织单元）
交叉组合：对某个目录，可以授权"技术部全员可读 + 张三可编辑 + 李四不可见"

五级交叉意味着权限可以在"空间/目录/文档"任一资源层级 × "用户/部门"任一人群维度上自由组合。

AI 概念

RAG（检索增强生成，Retrieval-Augmented Generation）

当前 AI 知识库的核心技术，工作流程：

复制代码

用户提问 → 从知识库中检索相关文档片段 → 将[问题+检索到的文档]发给大模型 → 大模型基于文档生成答案

为什么需要 RAG？ 大模型的知识有截止日期，且不知道你公司内部的文档内容，RAG 让大模型在回答前先"翻翻你的资料库"，所以能给出基于企业真实文档的答案。

向量检索（Vector Search）

RAG 的第一步"检索相关文档"的实现方式之一，核心思想：

将文档内容转化为一串数字（向量），语义相近的文档向量也相近
将用户问题也转化为向量
在向量空间中查找与问题向量最接近的文档向量

与关键词搜索的区别：

关键词搜索：用户搜"数据库连接池"，只能命中包含这些字的文档
向量检索：用户搜"怎么避免数据库连接太多把服务器搞崩"，也能命中"连接池配置文档"------因为语义相近

分块（Chunking）

将长文档切分为小片段的过程，为什么要分块？

大模型一次能处理的文本量有限
太长的文档包含太多无关信息，影响检索精度
合理的分块大小能提高检索命中率

重排序（Re-ranking）

向量检索返回的候选文档往往有几十上百条，但大模型一次只能处理有限条，重排序是对初筛结果做二次精细排序，选出最相关的前几条发给大模型。

召回率与准确率（Recall & Precision）

召回率：相关文档中，被检索到的比例，"100 篇相关文档，检索到了 80 篇"= 80% 召回率
准确率：检索结果中，真正相关的比例，"检索返回 10 篇，其中 7 篇相关"= 70% 准确率

两者通常是 trade-off：提高召回率可能导致准确率下降（返回更多不相关的结果）。

安全概念

SSO（单点登录，Single Sign-On）

用户用一套账号密码登录企业所有系统，接入 SSO 后，员工不需要为知识库单独注册账号。

LDAP（轻量级目录访问协议）

企业中常见的集中式账号管理协议，Windows AD 域就是基于 LDAP 的，知识库对接 LDAP 后，账号自动与公司域控同步。

OAuth 2.0

第三方登录授权协议，用户可以用飞书、企业微信、钉钉等已有账号扫码登录知识库。

动态水印

在页面内容上叠加包含用户身份信息（用户名、时间戳）的半透明文字，即使内容被截图传播，也能追溯到泄露者。

版本概念

版本历史（Version History）

文档每次保存时自动记录的快照，包含版本号、修改时间、修改人、版本说明。

版本回退（Rollback）

将文档内容恢复到某个历史版本的状态，在误删内容或被错误修改后，回退是最快的恢复手段。

发布概念

开放空间（Public Space）

将知识空间设置为互联网可公开访问，获得链接的用户无需登录即可阅读文档，可设置密码保护。

独立域名（Custom Domain）

为对外发布的知识站点绑定企业自有域名（如 docs.yourcompany.com），而非系统默认域名。

付费阅读（Paid Access）

文档内容需要付费后才能查看，适用于行业报告、培训课程、技术方案等可商业化分发的内容。

运维概念

私有化部署（On-Premises / Self-Hosted）

将知识库系统安装在企业自有服务器上，数据和系统完全由企业自主掌控，与 SaaS（软件即服务，系统由厂商托管在云端）相对，例如 zyplayer-doc 支持完全的私有化部署，数据 100% 存储在用户自有服务器上，同时提供 Docker、java -jar 和宝塔面板三种部署方式。

Docker 部署

将系统和所有依赖打包为"容器镜像"，一条命令即可启动，不需要手动配置 Java、MySQL 等环境依赖，zyplayer-doc 的 Docker Compose 部署约 2-5 分钟完成，适合快速体验和标准化运维。

数据库备份

定期将数据库内容导出为文件，存放在安全的地方，备份是数据安全的最后一道防线------服务器崩了、数据被删了、被勒索了，只要备份还在就能恢复。

结语

理解这些核心概念不只是为了"听起来专业"，而是为了在选型、配置和运营知识库时能做出更准确的判断，比如：权限粒度决定了敏感文档的保护能力，RAG 配置决定了 AI 问答的准确率，分块策略影响了检索效果------每个概念背后都有对应的实践决策，把这篇文章收藏起来，选型或配置时随时查阅。