搭建个人知识库，支持Word、PDF、txt等，一般电脑也能玩。

你好，我是郭震

本地部署大模型，再构建个人知识库，跑自己的文档、数据等，有很多好处。

比如，隐私的财务数据可以借力AI大模型做总结，股票数据实时接入到大模型做数据分析，个人word文档批量读取做总结等。

本篇教程继续系列上一篇教程：自己电脑搭建个人知识库，一般电脑也能玩（支持通义千问、GPT等）。在此基础上，扩展支持PDF和txt文件的读取。

错过上篇教程的，我简单再在这里和大家回顾一下。我提出的方案基于LLM大模型+文档检索方法，具有的优势：

充分释放大模型能力，因为使用的是文档检索，而不是语义向量所以检索会更加高效，大大提升了回复效率；同时对电脑的性能要求直接降到最低，一般电脑也能玩起来了。

你需要做的前期准备

总结来说，使用本地大模型（qwen:7b）+ 文档搜索工具（whoosh)，这个方案不花一分钱，一般电脑又能玩。

整体界面和使用demo如下所示，支持多个文件加载，包括PDF，docx等word文档和txt格式，每个文件最大支持到200M：

实现上面功能的代码，我已经完整放在公众号里，大家下面回复：知识库，即可领取完整代码文件：

这是第一步，通过界面加载不同类型的本地文档和数据，如下读取了：财务数据1.docx：

再次拖动小明收支账本.pdf到界面，加载后自动显示已处理，因为是在本地进行，并且使用了whoosh检索工具，加载速度非常快：

PDF读取在此使用比较常用的PyPDF2，大家只需要pip install PyPDF2安装即可使用，开源免费。

只需要下面几行代码，我们就可以读取PDF内容。

然后再把文档加入到whoose的索引库，代码如下所示，为后续本地检索提供基础文件数据，这就是我们的个人知识库：

等输入「小明收支账本」关键词时，很快就能从本地知识库检索到，如下所示。此处代码使用了模糊查询，所以命中概率会大幅提升：

可以看到命中文件为PDF类型，并且显示查询到的内容：

紧接着会自动调用大模型做文档总结分析，这里使用通义千问大模型，因为它是开源的，关于详细的部署教程，大家可以参考之前教程，链接在这里：自己电脑搭建AI大模型详细教程，支持通义千问、Llama3、接口调用等。

这是搭建个人知识库最有价值的地方，当自动检索出文档后，会自动输到大模型中，然后自动做总结分析，比较方便。同时，利用大模型的总结能力，总结还是比较全面的：

最后总结一下

目前代码支持的功能，包括：

1 支持多种文件：你可以加载 PDF、Word（.docx）、TXT 等格式，文件最大支持到 200M。

2 加载速度快：因为使用的是 Whoosh 检索工具，拖动文件到界面，直接秒处理。

3 大模型辅助分析：比如搜索"小明收支账本"，系统会自动检索相关内容，还能用大模型给出智能总结，堪称你的私人助理。

后面会扩展更多实用功能，欢迎关注。

以上全文2308字，8张图。如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个⭐️，谢谢你看我的文章，我们下篇再见！