写在前面

之前ChatGLM推出3了，奈何自身条件不允许，CPU运行半天出不来结果，索性放弃。幸好这次拿到了朋友的机器，虽然显存不高，但是双卡共16G也满足运行的最低要求，于是乎准备研究一波，尝试双卡部署一下。

环境配置

关于ChatGLM3不过多介绍了，支持工具回调，支持代码执行，是我挺喜欢的一个开源模型，这次直接给出了技术文档 lslfd0slxc.feishu.cn/wiki/HIj5wV...（文档内容不做截图因为有水印）

先下载源码

bash 复制代码

git clone https://github.com/THUDM/ChatGLM3.git

然后装一下requirements.txt，因为之前已经装好了torch，所以注释掉

bash 复制代码

pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

太慢了，加上国内源

随后，基础环境装好了。

ChatGLM3给了多种运行方式，其中包含基础demo（basic_demo目录下）和综合demo（包含工具执行，代码解释的综合性demo，在composite_demo）

这里我先以方便双卡运行为主，运行basic_demo

关于综合Demo可以参考，本篇不提及：github.com/THUDM/ChatG...

题外话：运行web_demo.py发现丢了个mdtex2html的库，装一下

bash 复制代码

pip3 install mdtex2html -i https://pypi.tuna.tsinghua.edu.cn/simple

项目运行

因为网络问题无法访问到huggingface，所以我准备使用魔塔社区的模型仓库来下载与逆行，要简单修改一下来源，通过transformers库中的方法找的是huggingface的模型，

这里参考魔塔社区的README.md

www.modelscope.cn/models/Zhip...

简单修改为 modelscope的方法，先下载modelscope库

bash 复制代码

pip3 install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

然后如下是修改后的 1-20行代码

python 复制代码

import os
from modelscope import AutoModel, AutoTokenizer
import gradio as gr
import mdtex2html
from utils import load_model_on_gpus
import torch

MODEL_PATH = os.environ.get('MODEL_PATH', 'ZhipuAI/chatglm3-6b')
TOKENIZER_PATH = os.environ.get("TOKENIZER_PATH", MODEL_PATH)
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'

tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_PATH, trust_remote_code=True)
if 'cuda' in DEVICE: # AMD, NVIDIA GPU can use Half Precision
    model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True).to(DEVICE).eval()
else: # CPU, Intel GPU and other GPU can use Float16 Precision Only
    model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True).float().to(DEVICE).eval()

# 多显卡支持，使用下面两行代替上面一行，将num_gpus改为你实际的显卡数量
from utils import load_model_on_gpus
model = load_model_on_gpus("ZhipuAI/chatglm3-6b", num_gpus=2)