基于Langchain-Chatchat + ChatGLM 本地部署知识库

一、相关环境

参考链接: Github:https://github.com/chatchat-space/Langchain-Chatchat

Langchain-chatchat版本:v0.3.1

安装环境:Ubuntu:22.04,CUDA:12.1

二、搭建过程

2.1 环境配置

2.1.1 创建chatchat虚拟环境

使用模型推理框架并加载模型,这里用到的是Xinference。

【注意】为避免依赖冲突,请将 Langchain-Chatchat 和模型部署框架如 Xinference 等放在不同的 Python 虚拟环境中,比如 conda, venv, virtualenv 等。

2.1.2 创建xinference虚拟环境

  • 创建xinference虚拟环境

    conda create -n xinf python=3.10 -y
    conda activate xinf

  • 安装依赖

    pip install "xinference[transformers]"
    pip install sentence-transformers

  • 启动xinference

    xinference-local --host 0.0.0.0 --port 9997

2.2 模型推理框架并加载模型(xinference)

* 在xinference加载模型

  • 在xinference加载本地模型

在启动 Xinference 服务后,到项目 tools/model_loaders 目录下执行

复制代码
streamlit run xinference_manager.py

按照页面提示为指定模型设置本地路径即可

2.3 初始化项目配置与数据目录

打开 chatchat:

设置 Chatchat 存储配置文件和数据文件的根目录,在文件夹中新建一个chatchat_data 文件夹:

data 文件夹

复制代码
# on linux or macos 
export CHATCHAT_ROOT=/path/to/chatchat_data 
# on windows 
set CHATCHAT_ROOT=/path/to/chatchat_data

若不设置该环境变量,则自动使用当前目录。

执行初始化:

复制代码
chatchat init

该命令会执行以下操作:

  • 创建所有需要的数据目录
  • 复制 samples 知识库内容
  • 生成默认 yaml 配置文件

数据库中的内容

初始化成功

修改配置文件,需要根据步骤 2.2 模型推理框架并加载模型中选用的模型推理框架与加载的模型进行模型接入配置,具体参考 model_settings.yaml 中的注释。主要修改以下内容:

复制代码
# 默认选用的 LLM 名称
 DEFAULT_LLM_MODEL: glm4-chat
 
 # 默认选用的 Embedding 名称
 DEFAULT_EMBEDDING_MODEL: bge-m3
 
# 将 `LLM_MODEL_CONFIG` 中 `llm_model, action_model` 的键改成对应的 LLM 模型
# 在 `MODEL_PLATFORMS` 中修改对应模型平台信息

配置知识库路径(basic_settings.yaml),这步可以不做,如果你就是用前面配置好的数据库地址。

默认知识库位于CHATCHAT_ROOT/data/knowledge_base,如果你想把知识库放在不同的位置,或者想连接现有的知识库,可以在这里修改对应目录即可。

复制代码
# 知识库默认存储路径
 KB_ROOT_PATH: D:\chatchat-test\data\knowledge_base
 
 # 数据库默认存储路径。如果使用sqlite,可以直接修改DB_ROOT_PATH;如果使用其它数据库,请直接修改SQLALCHEMY_DATABASE_URI。
 DB_ROOT_PATH: D:\chatchat-test\data\knowledge_base\info.db
 
 # 知识库信息数据库连接URI
 SQLALCHEMY_DATABASE_URI: sqlite:///D:\chatchat-test\data\knowledge_base\info.db

配置知识库(kb_settings.yaml)(可选):

默认使用 FAISS 知识库,如果想连接其它类型的知识库,可以修改 和 kbs_config。

支持的数据文件类型很多,包括PDF、TXT、MP4、CSV、MD等,但是要注意放置到对应的文件夹下面:

直接将文件放在这些文件夹内即可

2.4 初始化知识库

进行知识库初始化前,请确保已经启动模型推理框架及对应 embedding 模型(也就是 Xinference 框架要启动着),且已按照上述步骤 2.3 完成模型接入配置。

复制代码
chatchat kb -r

出现这个就说明已经加载好了

更多功能可以查看:

复制代码
chatchat kb --help

参数说明:

  • -r, --recreate:重新创建矢量存储。如果存在此选项,则使用它。已将文档文件复制到内容文件夹,但矢量存储尚未填充或DEFAUL_VS_TYPE/DEFAUL_EMBEDING_MODEL已更改。
  • --create-table:如果不存在,则创建空表。
  • --clear-table:创建空表,或在重新创建矢量存储之前删除数据库表。
  • -u, --db-update:数据库中存在文件的矢量存储更新。如果要重新创建矢量存储,请使用此选项。文件存在于数据库中,跳过文件存在于本地文件夹。
  • -i, --incremental:本地文件夹中存在文件的增量更新矢量存储,数据库中不存在。如果您希望逐步创建矢量,请使用此选项。
  • --trim-db:删除本地数据库中不存在的文档文件夹中的文档。用于删除用户在文件浏览器中删除的文档文件。
  • --trim-folder: 删除本地文件夹中不存在的文档文件数据库。用于释放本地磁盘空间,删除未使用的文档文件。
  • -n, --kb-name TEXT:指定要操作的知识库名称。默认值为KB_ROOT_PATH中存在的所有文件夹。
  • -e, --embed-model TEXT:指定嵌入模型。
  • --import-from-db TEXT:从指定的sqlite数据库导入表。

--help:显示此消息并退出。

2.5 启动项目

复制代码
chatchat start -a

三、遇见问题

复制代码
pip install openai==0.28.1
相关推荐
Dontla6 小时前
黑马大模型RAG与Agent智能体实战教程LangChain提示词——6、提示词工程(提示词优化、few-shot、金融文本信息抽取案例、金融文本匹配案例)
redis·金融·langchain
JaydenAI6 小时前
[LangChain之链]LangChain的Chain——由Runnable构建的管道
python·langchain
草帽lufei6 小时前
LangChain 框架核心向量存储
langchain
猫头虎7 小时前
如何使用Docker部署OpenClaw汉化中文版?
运维·人工智能·docker·容器·langchain·开源·aigc
qq_5470261798 小时前
LangChain 1.0 核心概念
运维·服务器·langchain
uXrvbWJGleS8 小时前
三相两电平整流器Simulink仿真探究
langchain
猫头虎8 小时前
手动部署开源OpenClaw汉化中文版过程中常见问题排查手册
人工智能·langchain·开源·github·aigc·agi·openclaw
程序员ken9 小时前
深入理解大语言模型(8) 使用 LangChain 开发应用程序之上下文记忆
人工智能·python·语言模型·langchain
一切尽在,你来19 小时前
第二章 预告内容
人工智能·langchain·ai编程
一切尽在,你来1 天前
1.1 AI大模型应用开发和Langchain的关系
人工智能·langchain