手把手教你搭建本地知识库问答AI机器人，学不会你来找我！！

前言

没有知识库喂养的AI，就像一个刚出大学校门的学生，有潜力但很多实际问题无法回答，而经过本地知识库加持的AI，那才是特定领域的专家，可以成为你的良师益友，协助你更好的解答实际问题。

现在的ChatGPT和Claude等AI都支持上传文档回答问题，但不是每个人都能使用。国内的大模型也有文档功能，测试下来效果不是很好。还有一点，不管国内还是国外的AI，允许上传的文档数量有限制，一般只允许上传一个文档提问，Claude属于比较慷慨，大概也只能上传10个文档。

抛开这些不说，知识库是数据，一些敏感的数据，现在大家还不是很放心交给别人，所以搭建一个本地的知识库聊天机器人，是很实际的刚需，尤其对于企业来说，就更是如此。

要在本地搭建一套知识库聊天系统，要做的工作真不少，感谢开源的Langchain-Chatchat，它让这一切变得相当简单。

Langchain-Chatchat既支持开源模型（需要硬件，如A6000），也支持OpenAI等开源模型（需要购买OpenAI的key）。

下面进入正题，手把手教大家基于Langchain-Chatchat，在本地搭建一个知识库聊天系统，把我的实践经验分享给你，避免一些踩过坑。

我使用的硬件和模型信息：

显卡：一块英伟达的A6000

LLM：开源的chatglm3-6b

向量模型：开源的jina-embedding-l-en-v1

向量数据库：开源的milvus

搭建本地知识库，并基于其进行AI聊天，原理和流程如下图：

知识库聊天机器人实现流程

===

环境准备

请注意，我搭建时，langchain-chatchat的版本是v0.2.6，不同的版本，相关的环境可能存在变化。

首先，确保你的机器安装了 Python 3.10

python 复制代码

$ python --version
Python 3.10.13

如果未安装3.10，可从官网下载编译安装。

python 复制代码

wget https://www.python.org/ftp/python/3.10.13/Python-3.10.13.tgz
sudo apt install wget lzma liblzma-dev build-essential libncursesw5-dev libssl-dev libsqlite3-dev tk-dev libgdbm-dev libc6-dev libbz2-dev libffi-dev zlib1g-dev
mkdir -p /home/xaccel/Documents/chatchat/python310/
./configure --prefix=/home/xaccel/Documents/chatchat/python310/ --with-ssl --enable-optimizations
make
make install
sudo ln -sf ~/Documents/chatchat/python310/bin/python3.10 /usr/bin/python3
sudo ln -sf ~/Documents/chatchat/python310/bin/pip3.10 /usr/bin/pip3

接着，创建一个虚拟环境，并在虚拟环境内安装项目的依赖

python 复制代码

# 拉取仓库
$ git clone https://github.com/chatchat-space/Langchain-Chatchat.git
 
# 进入目录
$ cd Langchain-Chatchat
 
#创建虚拟环境
$ python3 -m venv myenv
$ source myenv/bin/activate
 
# 默认依赖包括基本运行环境（FAISS向量库）。如果要使用 milvus/pg_vector 等向量库，请将 requirements.txt 中相应依赖取消注释再安装。
# 我们需要milvus数据库，修改requirements.txt
$ vi requirements.txt
# 找到行：# pymilvus==2.1.3，去除注释
 
# 安装全部依赖
$ pip install -r requirements.txt

安装并运行milvus数据库

注意requirements.txt中的pymilvus版本是2.1.3，所以milvus也需要安装对应的版本，即milvus 2.1.x。

下载milvus 2.1.x

python 复制代码

wget https://github.com/milvus-io/milvus/releases/download/v2.1.4/milvus-standalone-docker-compose.yml -O docker-compose.yml

启动向量数据库milvus

python 复制代码

sudo docker-compose up -d

下载开源模型

langchain-chatchat支持开源模型和OpenAI等商用模型，我需要开源模型，先将开源大模型下载至本地，通常开源 LLM 与 Embedding 模型可以从 HuggingFace 下载。

以本项目中默认使用的 LLM 模型 THUDM/ChatGLM3-6B 与 Embedding 模型

jinaai/jina-embedding-l-en-v1 为例：

下载模型需要先安装 Git LFS，然后运行

python 复制代码

$ git lfs install
 
# 将大模型下载到以下文件夹
$ cd /xrepo/KDB/LLM/ChatMode
 
# 下载大模型
$ git clone https://huggingface.co/THUDM/chatglm3-6b
$ git clone https://huggingface.co/jinaai/jina-embedding-l-en-v1

初始化知识库和配置文件

复制配置文件，并配置步骤二中下载的大模型

python 复制代码

$ python copy_config_example.py
 
# 修改模型配置文件
$ vi configs/model_config.py
 
# 设置大模型存放路径
MODEL_ROOT_PATH = "/xrepo/KDB/LLM/ChatMode"
 
# embed_model下增加：
"jina-embedding-l-en-v1":"jinaai/jina-embedding-l-en-v1",
 
# llm_model下增加：
"chatglm3-6b": "THUDM/chatglm3-6b",
 
# 修改默认EMBEDDING_MODEL
EMBEDDING_MODEL = "jina-embedding-l-en-v1"
 
# 修改默认LLM
LLM_MODEL = "chatglm3-6b"

初始化数据库

python 复制代码