如意知识库工厂：我用 DocsGPT 跑通了一套私有 RAG 问答系统

OK，OK，大家好，欢迎大家来到大鹏 AI 教育，我是张大鹏。

最近我一直在琢磨一件事：如果我们自己要做一套"如意知识库"，让 AI 能基于我自己的资料准确回答问题，到底该从哪些开源项目里抄作业，哪些东西又不能直接搬回家。这一系列我打算一个个真跑，今天先说第一个，GitHub 上很火的私有知识库项目 DocsGPT ，我把它叫作如意知识库工厂。

这篇不是官方教程，也不是 README 改写，而是我把它从头到尾真跑了一圈之后的判断。光看 README 没用，README 写得好，不代表这项目适合你二开。所以这次我实打实把它跑通了，连坑带结果一起摊开讲。

大模型很聪明，但不一定说得对

先说个大家都有的体会。你去问大模型一个关于自己公司制度、或者自己课程内容的问题，它经常一本正经地胡说八道。不是它笨，是它压根没见过你的私有资料，训练数据里也没有你昨天才写的东西。

解决办法就是给它外挂一个资料库，这套机制的专业名叫 RAG ，检索增强生成。说人话就是：让大模型回答之前，先去你的资料库里翻一翻，翻到什么就照着什么答，答完还告诉你出处。 没有它，大模型是闭卷考试，全靠记忆硬编；接上它，就变成开卷考试，先翻书再答题。

我特别喜欢一句话，也是这次测试资料里的原话：大模型负责会说话，知识库负责说得对。 这就是 RAG 存在的全部意义。DocsGPT 干的就是这件事，只不过它把解析、切块、向量、检索、引用、任务队列、数据库全给你配齐了，是一套完整方案。

我这次实际跑了什么

先说结论，我要的东西全跑通了：DocsGPT 在我本机起来了，导入了三份我自己的中文资料，然后我连问了 11 个问题，全部答对，而且每一条答案都带出处。

但过程没那么顺。我一开始以为照着官方文档 docker compose 一把梭就完事，结果第一步就卡住了：我这台机器压根没装 Docker。 官方推荐的路子直接走不通。

这里别急着放弃。我摸了一圈本机环境，发现一个好消息：DocsGPT 后端真正依赖的两个大件，Postgres 和 Redis，我这台机器早就原生装着在跑了；向量库它默认用的是本地 FAISS，也不用额外部署。既然依赖都在，那我就不走 Docker，直接本地原生把它拉起来。

最后跑起来是这么一套：

后端用 uvicorn 起在 7091 端口；
文档索引交给 Celery worker，Windows 上得用 solo 池才不报错；
数据库我没动我原有的库，专门新建了一个隔离库 docsgpt，跟我其它真实数据完全隔开；
向量存本地 FAISS，一个资料集一个索引文件。

一句话，没有 Docker，我照样把它原生跑通了。

模型怎么接：硅基流动管回答，本地模型管向量

RAG 要两种模型：一种是大语言模型 ，负责最后用人话把答案组织出来；一种是 Embedding 模型，负责把文字转成向量好做检索。这两个我都得接上。

大模型这块我用的是硅基流动 ，接的是 Qwen/Qwen2.5-72B-Instruct。硅基流动是 OpenAI 兼容接口，DocsGPT 里配成 openai 这个 provider，填好 base_url 和环境变量里的 API Key 就通了。为什么用 72B 后面会讲，这里先卖个关子。

Embedding 这块我踩了坑，最后改成了本地模型 BAAI/bge-small-zh-v1.5。它体积小、专门优化中文，512 维，效果够用。为什么不用硅基流动的远程 embedding，也放到坑那一节讲。

这套搭配的好处是：我的资料和问题，全程只在我自己的机器和我自己的 API 账号之间跑，不往任何第三方公共服务上送。 做私有知识库，这条底线很重要。

三份中文文档进去，11 个问题全答对

模型接好，我上传了三份自己的中文资料，加起来大概 11036 个字符，被切成了 39 个分段建了索引。worker 日志里明明白白写着索引成功：

复制代码

INFO ... embedding_pipeline: Vector store saved successfully.
INFO ... Task ...ingest[...] succeeded in 12.3s

然后就是见真章的环节。我准备了 11 个问题，10 个答案就藏在资料里，还有 1 个故意问资料里根本没有的（问这门课卖多少钱），专门用来试它会不会瞎编。

结果让我挺满意：10 个资料内的问题全部答对，每一条都带引用来源，能点回到具体是哪份文档的哪一段。 比如我问"知识库的服务 API 地址是什么、怎么鉴权、密钥什么开头"，它准确答出了 base 地址、Bearer 认证、以及密钥以 dataset- 开头，一个字没错。

最关键的是那个"陷阱题"。我问课程售价，它没有硬编一个数字糊弄我，而是老老实实说：文档里没有提到售价，我无法回答 ，建议我走官方渠道。你看，这就是 RAG 最有价值的地方，有据就答，没据就说没有，不瞎编。 这一条它稳稳做到了。

这一跑，还真跑出不少坑

光说结果太漂亮了，我把坑也给你摊开，能替你省不少时间。

坑一：Windows 中文环境把它整崩了。 启动就报 GBK 编码错误，直接起不来。刨到根上，是它读一个配置文件时非要用系统的 GBK 编码，而文件里有个 UTF-8 的长破折号，一读就炸，而且你设 UTF-8 环境变量都盖不住它。我把那个配置文件里的破折号改成两个普通减号，纯注释改动，才算过关。老 Windows 用户对这类编码坑应该不陌生。

坑二：向量模型下载卡死。 默认要从 HuggingFace 拉模型，我挂了国内常用的镜像站，首页能通，但模型文件死活下不动，试了好几次都失败。后来我干脆直连 HuggingFace 官方，反而十几秒就下好了。有时候镜像不一定比直连强，这事儿挺反直觉。

坑三：模型接入连环坑。 本机那个 Anthropic 的 key 其实是个会话令牌，根本不能直连 API，试了直接 401。改用硅基流动之后，它的 chat 一切正常，可远程 embedding 又撞了 DocsGPT 自己的一个 bug：它把向量维度写死成了 768，而硅基流动的中文向量模型是 1024 维，一检索就维度对不上报错。绕过办法就是我前面说的，大模型用硅基流动，向量改用本地 512 维的 bge-small-zh，各退一步就通了。

还有个坑值得单独说：小模型答不好。 我一开始用的是硅基流动的 Qwen2.5-7B，检索每次都命中了正确段落，可它生成的中文一堆乱码和重复引号，有道题直接答崩了。换成 72B 之后，同样的资料、同样的检索，答案立马干净利落，11 道全对。这说明 RAG 的检索链路是对的，短板在小模型的生成质量。 做正经问答，别在生成模型上太省。

哪些地方值得抄，哪些不建议整体搬

跑完这一圈，我的判断很明确。

先说值得抄的。DocsGPT 像一座完整的 RAG 工厂，从资料进门到答案出门，中间每道工序它都给你标好了，很多设计我们如意自己做知识库时可以直接借鉴：

文档解析层：一个入口吃下 PDF、Word、Markdown、网页、甚至音频，通用性很强；
切块策略：怎么把长文切成合适的段，它有好几种成熟做法；
一个资料集一个 FAISS 索引：删除、重建、隔离都特别干净；
引用机制：答案回传命中的原文段落，这是私有知识库必须有的；
模型 provider 抽象：接硅基流动、接本地模型都是同一个入口，很清爽。

但值得抄，不等于值得整个搬回家。

我不建议一上来就整体 fork。 为什么？因为这座工厂太大了。它把前端界面、任务队列、缓存、数据库、多种向量库、权限系统、单点登录、团队协作、可观测性全塞进来了，光把它完整跑起来就得同时拉起四五个进程，配置项几百个。这里头至少一大半，是我们如意知识库现阶段根本用不上的。你为了用它两成的核心能力，得背上八成的复杂度，不划算。

不要迷信高 Star，先看它能不能跑、能不能改、能不能融进你自己的体系。 这次真跑一遍，我对它的边界比看十遍 README 都清楚。

我的判断：抄骨架，不搬全家桶

所以我对 DocsGPT 的定论是：它是学习一套完整 RAG 产品的绝佳样板，但不适合当如意知识库的主系统。适合抄骨架，不适合搬全家桶。

它像一座完整工厂，什么都有，但我们未必需要把整座工厂搬回家。真正值得带走的，就是那条主链路：解析、切块、向量、检索、引用。

下一步我很清楚该怎么走了。我会照着这套骨架，另起一个轻量 RAG 内核：文档解析和切块用更专的工具，向量用 FAISS，模型接硅基流动或本地都行，元数据用轻量的本地库存着，坚决不背 Postgres、不背任务队列、不做界面、不做权限。先把"入库、检索、问答、引用"这四件最核心的事跑顺，剩下的用到再加。

这就是我为什么把 DocsGPT 当样板，而不是当最终答案。工具不重要，工作流才重要。这个系列我还会接着往下拆，下一篇打算讲讲文档进知识库前的第一道关，解析和清洗到底该怎么做。

后面我会继续把这条路线拆成能上手的案例：文档怎么解析、怎么切块、怎么建索引、怎么让回答带引用。我们不堆概念，直接做能跑的东西。我们下篇见。