glm-4.7-flash本地部署

本地环境情况:

GPU:4090(48GB)* 2

RAM:512GB

使用docker运行多个模型实例,目标为了显存的复用

使用的镜像

vllm/vllm-openai:nightly

运行命令:

nginx 复制代码
docker run -d --name glm-4.7-flash-vllm \
  --gpus '"device=0,1"' \
  -v /home/ls/.cache/modelscope/hub/models/ZhipuAI/GLM-4.7-Flash:/app/models \
  --ipc=host \
  -p 8003:8000 \
  vllm/vllm-openai:nightly \
  --model /app/models \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --max-model-len=32768 \
  --max_num_seqs=8 \
  --served-model-name glm-4.7-flash

不出意外肯定要报错了:

(APIServer pid=1) You can update Transformers with the command pip install --upgrade transformers. If this does not work, and the checkpoint is very new, then there may not be a release version that supports this model yet. In this case, you can get the most up-to-date code by installing Transformers from source with the command pip install git+https://github.com/huggingface/transformers.git type=value_error, input_value=ArgsKwargs((), {'model': ...rocessor_plugin': None}), input_type=ArgsKwargs

(APIServer pid=1) For further information visit https://errors.pydantic.dev/2.12/v/value_error

意思是:nightly预览版里面的transformers的版本还是太低了。。。

升级transformers版本
  1. 构建本地docker镜像
nginx 复制代码
mkdir -p ~/vllm-glm47 && cd ~/vllm-glm47

cat > Dockerfile << 'EOF'
FROM vllm/vllm-openai:nightly

RUN pip install --upgrade transformers accelerate -q

ENTRYPOINT ["python3", "-m", "vllm.entrypoints.openai.api_server"]
EOF

docker build -t vllm-glm47:latest .
  1. 运行命令改成:
nginx 复制代码
docker run -d --name glm-4.7-flash-vllm \
  --gpus '"device=0,1"' \
  -v /home/ls/.cache/modelscope/hub/models/ZhipuAI/GLM-4.7-Flash:/app/models \
  --ipc=host \
  -p 8003:8000 \
  vllm-glm47:latest \
  --model /app/models \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --max-model-len=32768 \
  --max_num_seqs=8 \
  --served-model-name glm-4.7-flash
  1. 当然如果想在docker bash升级测试也可以
nginx 复制代码
# 0. 进入bash环境
docker run -it --rm \
  --gpus '"device=1"' \
  -v /home/ls/.cache/modelscope/hub/models/ZhipuAI/GLM-4.7-Flash:/app/models \
  --ipc=host \
  -p 8003:8000 \
  --entrypoint /bin/bash \
  vllm/vllm-openai:nightly



# 1. 升级依赖
pip install --upgrade transformers accelerate

# 2. 验证版本
python -c "import transformers; print(transformers.__version__)"

# 3. 手动启动服务
python -m vllm.entrypoints.openai.api_server \
  --model /app/models \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --max-model-len=32768 \
  --max_num_seqs=8 \
  --served-model-name glm-4.7-flash

如果运行爆显存

调整相关参数:--max-model-len=32768、--max_num_seqs=8

相关推荐
cup1115 小时前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南
python·ai·环境变量·ci·nuitka·skill
IT王师傅19 小时前
从 豆包 到 Codex CLI:一名普通开发者的 AI 工具进化路线
ai·codex cli·openclaw
岳小哥AI21 小时前
Siri要接入AI了,苹果手机上一句话让GPT写文案、DeepSeek写代码的时刻来了
ai·ai基础
Artech21 小时前
[MAF预定义的AIContextProvider-03]ChatHistoryMemoryProvider——赋予Agent从经验中学习的能力
ai·c#·agent·memory·maf
哥布林学者2 天前
深度学习进阶(三十一)FlashAttention:IO 感知的精确注意力
机器学习·ai
岳小哥AI2 天前
AI大模型"幻觉"从何而来?解密GPT-4、DeepSeek一本正经胡说八道的真相
ai·ai基础
JaguarJack2 天前
Openai Codex 重大更新 已支持接入任意开源大模型
ai·openai·codex
Artech3 天前
[MAF预定义的AIContextProvider-02]AgentSkillsProvider——将Agent Skills引入MAF
ai·c#·agent·agent skills·maf
岳小哥AI3 天前
读懂计算机视觉CV、语言感知(ASR/TTS)、多模态,就能理解AI是如何“看到”与“听到”世界的
ai·ai基础
大树883 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai