基于Langchain-Chatchat + ChatGLM 本地部署知识库

一、相关环境

参考链接: Github:https://github.com/chatchat-space/Langchain-Chatchat

Langchain-chatchat版本:v0.3.1

安装环境:Ubuntu:22.04,CUDA:12.1

二、搭建过程

2.1 环境配置

2.1.1 创建chatchat虚拟环境

使用模型推理框架并加载模型,这里用到的是Xinference。

【注意】为避免依赖冲突,请将 Langchain-Chatchat 和模型部署框架如 Xinference 等放在不同的 Python 虚拟环境中,比如 conda, venv, virtualenv 等。

2.1.2 创建xinference虚拟环境

  • 创建xinference虚拟环境

    conda create -n xinf python=3.10 -y
    conda activate xinf

  • 安装依赖

    pip install "xinference[transformers]"
    pip install sentence-transformers

  • 启动xinference

    xinference-local --host 0.0.0.0 --port 9997

2.2 模型推理框架并加载模型(xinference)

* 在xinference加载模型

  • 在xinference加载本地模型

在启动 Xinference 服务后,到项目 tools/model_loaders 目录下执行

streamlit run xinference_manager.py

按照页面提示为指定模型设置本地路径即可

2.3 初始化项目配置与数据目录

打开 chatchat:

设置 Chatchat 存储配置文件和数据文件的根目录,在文件夹中新建一个chatchat_data 文件夹:

data 文件夹

# on linux or macos 
export CHATCHAT_ROOT=/path/to/chatchat_data 
# on windows 
set CHATCHAT_ROOT=/path/to/chatchat_data

若不设置该环境变量,则自动使用当前目录。

执行初始化:

chatchat init

该命令会执行以下操作:

  • 创建所有需要的数据目录
  • 复制 samples 知识库内容
  • 生成默认 yaml 配置文件

数据库中的内容

初始化成功

修改配置文件,需要根据步骤 2.2 模型推理框架并加载模型中选用的模型推理框架与加载的模型进行模型接入配置,具体参考 model_settings.yaml 中的注释。主要修改以下内容:

# 默认选用的 LLM 名称
 DEFAULT_LLM_MODEL: glm4-chat
 
 # 默认选用的 Embedding 名称
 DEFAULT_EMBEDDING_MODEL: bge-m3
 
# 将 `LLM_MODEL_CONFIG` 中 `llm_model, action_model` 的键改成对应的 LLM 模型
# 在 `MODEL_PLATFORMS` 中修改对应模型平台信息

配置知识库路径(basic_settings.yaml),这步可以不做,如果你就是用前面配置好的数据库地址。

默认知识库位于CHATCHAT_ROOT/data/knowledge_base,如果你想把知识库放在不同的位置,或者想连接现有的知识库,可以在这里修改对应目录即可。

# 知识库默认存储路径
 KB_ROOT_PATH: D:\chatchat-test\data\knowledge_base
 
 # 数据库默认存储路径。如果使用sqlite,可以直接修改DB_ROOT_PATH;如果使用其它数据库,请直接修改SQLALCHEMY_DATABASE_URI。
 DB_ROOT_PATH: D:\chatchat-test\data\knowledge_base\info.db
 
 # 知识库信息数据库连接URI
 SQLALCHEMY_DATABASE_URI: sqlite:///D:\chatchat-test\data\knowledge_base\info.db

配置知识库(kb_settings.yaml)(可选):

默认使用 FAISS 知识库,如果想连接其它类型的知识库,可以修改 和 kbs_config。

支持的数据文件类型很多,包括PDF、TXT、MP4、CSV、MD等,但是要注意放置到对应的文件夹下面:

直接将文件放在这些文件夹内即可

2.4 初始化知识库

进行知识库初始化前,请确保已经启动模型推理框架及对应 embedding 模型(也就是 Xinference 框架要启动着),且已按照上述步骤 2.3 完成模型接入配置。

chatchat kb -r

出现这个就说明已经加载好了

更多功能可以查看:

chatchat kb --help

参数说明:

  • -r, --recreate:重新创建矢量存储。如果存在此选项,则使用它。已将文档文件复制到内容文件夹,但矢量存储尚未填充或DEFAUL_VS_TYPE/DEFAUL_EMBEDING_MODEL已更改。
  • --create-table:如果不存在,则创建空表。
  • --clear-table:创建空表,或在重新创建矢量存储之前删除数据库表。
  • -u, --db-update:数据库中存在文件的矢量存储更新。如果要重新创建矢量存储,请使用此选项。文件存在于数据库中,跳过文件存在于本地文件夹。
  • -i, --incremental:本地文件夹中存在文件的增量更新矢量存储,数据库中不存在。如果您希望逐步创建矢量,请使用此选项。
  • --trim-db:删除本地数据库中不存在的文档文件夹中的文档。用于删除用户在文件浏览器中删除的文档文件。
  • --trim-folder: 删除本地文件夹中不存在的文档文件数据库。用于释放本地磁盘空间,删除未使用的文档文件。
  • -n, --kb-name TEXT:指定要操作的知识库名称。默认值为KB_ROOT_PATH中存在的所有文件夹。
  • -e, --embed-model TEXT:指定嵌入模型。
  • --import-from-db TEXT:从指定的sqlite数据库导入表。

--help:显示此消息并退出。

2.5 启动项目

chatchat start -a

三、遇见问题

pip install openai==0.28.1
相关推荐
AIGC龙哥8 小时前
Stable Diffusion教程|快速入门SD绘画原理与安装
stable diffusion·aigc·ai绘画·sd·安装包·本地部署·炼丹师
王毕业14 小时前
从零开始解析RAG(二):路由与查询构建——让数据主动响应问题
langchain
雪语.2 天前
AI大模型学习(五): LangChain(四)
数据库·学习·langchain
ILUUSION_S2 天前
结合RetrievalQA和agent的助手
python·学习·langchain
王毕业3 天前
从零解析RAG(一)
langchain
neoooo3 天前
LangChain与Ollama构建本地RAG知识库
人工智能·langchain·aigc
charles_vaez3 天前
开源模型应用落地-LangGraph101-探索 LangGraph人机交互-添加断点(一)
深度学习·自然语言处理·langchain
牛奶4 天前
前端学AI:LangChain、LangGraph和LangSmith的核心区别及定位
前端·langchain·ai 编程
牛奶4 天前
前端学AI:基于Node.js的Langchain开发-简单实战应用
前端·langchain·node.js
星星点点洲4 天前
【LangChain.js】Python版LangChain 的姊妹项目
javascript·langchain