【一站式】本地部署大模型(GLM-4.5-Air量化版) + Claude Code Router + Claude Code

目录

  • 一、本地部署GLM-4.5-Air量化版
  • [二、Claude Code安装及配置](#二、Claude Code安装及配置)
    • 安装Node
    • [安装Claude Code](#安装Claude Code)
    • [配置Claude Code及Claude Code VS Code插件](#配置Claude Code及Claude Code VS Code插件)
  • [三、Claude Code Router安装及配置](#三、Claude Code Router安装及配置)
    • [安装Claude Code Router](#安装Claude Code Router)
    • [配置Claude Code Router](#配置Claude Code Router)
  • [四、使用Claude Code调用本地部署模型](#四、使用Claude Code调用本地部署模型)

一、本地部署GLM-4.5-Air量化版

安装Python并创建虚拟环境

官网下载、安装Python后,环境最好用venv隔离一下,这个不赘述。

下载模型

我成功部署的是这个,大小63GB,量化完参数17B:cpatonn-mirror/GLM-4.5-Air-AWQ

激活venv虚拟环境后,安装ModelScope环境,慢的话切一下国内源:

bash 复制代码
pip install modelscope

下载模型,取决于你的网速,我能把带宽跑满 (接近400Mbps):

bash 复制代码
modelscope download --model cpatonn-mirror/GLM-4.5-Air-AWQ --local_dir ./你的目录

如果要下特定文件:

bash 复制代码
modelscope download --model cpatonn-mirror/GLM-4.5-Air-AWQ 要单独下的文件 --local_dir ./你的目录

安装vLLM

激活venv虚拟环境后,安装vLLM环境,慢的话切一下国内源:

bash 复制代码
pip install vllm

部署模型

我在A4500 20G * 8 部署成功,但是用Claude Code接入后,模型会说胡话,可能是参数配置问题;因此尝试在A6000 48G * 2重新部署,实际成功的参数如下:

bash 复制代码
CUDA_VISIBLE_DEVICES=0,1 vllm serve 你的模型路径/glm-4.5-air-awq \
--pipeline-parallel-size 2 \
--host 你的模型部署主机IP \
--served-model-name glm-4.5-air-awq \
--dtype float16 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--disable-custom-all-reduce \
--gpu-memory-utilization 0.95 \
--max-model-len 130000 \
--max-num-seqs 64 \
--port 8000

PS:我还clone了GLM-4.5的Repo装了依赖,实际可能不需要。

二、Claude Code安装及配置

安装Node

官网下载、安装Node v20以上,这个不赘述。

安装Claude Code

直接npm安装,慢的话切一下国内源,或者使用nrm等工具管理源:

bash 复制代码
npm install -g @anthropic-ai/claude-code

这时候,你直接运行claude会要求你使用官方付费账户登录,科学上网不付费也无法直接使用,后面我们用配置和Claude Code Router解决这个问题

配置Claude Code及Claude Code VS Code插件

这部分我是参照这篇博文配置的,不赘述了。其中APIKEY应该可以不设;如果要设置,就设置成一致的。

三、Claude Code Router安装及配置

安装Claude Code Router

直接npm安装,慢的话切一下国内源,或者使用nrm等工具管理源:

bash 复制代码
npm install -g @musistudio/claude-code-router

配置Claude Code Router

下载这个脚本,并放到下面json第五行的路径下:

修改配置文件C:\Users\你的用户名\.claude-code-router\config.json (Linux/Mac用户就是你的home/你的用户名目录下的相应配置文件),这个配置文件是我实际跑起来的:

json 复制代码
{
  "LOG": true,
  "transformers": [
    {
      "path": "/home/你的用户名/.claude-code-router/glm-4.5-air-disable-thinking-transformer.js"
    }
  ],
  "Providers": [
    {
      "name": "glm-4.5-air",
      "api_base_url": "http://你的模型部署主机IP:8000/v1/chat/completions",
      "api_key": "none",
      "models": [
        "glm-4.5-air-awq"
      ],
      "transformer": {
        "use": [
          [
            "sampling",
            {
              "_comment": "Using values described at https://z.ai/blog/glm-4.5. Claude Code sets temperature 0 for requests determining the conversation topic and 1 for serious requests. I'm not going to put in the effort to differentiate between these two request types, so I am setting it to the value that I think should help more with important requests.",
              "temperature": 0.6,
              "top_p": 1.0
            }
          ]
        ],
        "glm-4.5-air-awq": {
          "use": [
            "reasoning"
          ]
        }
      }
    }
  ],
  "Router": {
    "default": "glm-4.5-air,glm-4.5-air-awq"
  }
}

四、使用Claude Code调用本地部署模型

一切就绪后重启Claude Code Router:

bash 复制代码
ccr restart

在你的项目目录下启动Claude Code Router路由的Claude Code:

bash 复制代码
ccr code

跑起来显示用的官方模型,实际是把请求路由到了你本地部署的模型:

Enjoy it~

Ref:

1\]: https://www.modelscope.cn/models/cpatonn-mirror/GLM-4.5-Air-AWQ \[2\]: https://docs.vllm.com.cn/projects/recipes/en/latest/GLM/GLM-4.5.html \[3\]: https://blog.csdn.net/Dvesiz/article/details/156387378 \[4\]: https://rosetears.cn/archives/63/ \[5\]: https://github.com/danielrothfus/ccr-vllm-glm-4.5-setup

相关推荐
Destiny_where1 天前
Claude VSCode插件版接入强大的GLM(无需登录注册claude code)
ide·人工智能·vscode·编辑器·claude code
16Miku1 天前
使用 Claude Code 的 pptx-skills 技能生成精美 EVA 主题 PPT 完整指南
ai·powerpoint·claude code
小小工匠2 天前
LLM - Claude Code Skills 实战指南:用模块化“技能包”重构AI 开发工作流
人工智能·claude code·skills
康de哥2 天前
MCP Unity + Claude Code 配置关键步骤
unity·mcp·claude code
叶庭云2 天前
一文理解在 VSCode 中成功使用 Claude Code 插件
vscode·插件·api key·vibe coding·claude code·base url·coding agent
roamingcode3 天前
超越 Context Window:为何文件系统是 AI Agent 的终极记忆体
人工智能·agent·cursor·claude code·上下文工程·skill 技能
智慧地球(AI·Earth)3 天前
Codex配置问题解析:wire_api格式不匹配导致的“Reconnecting...”循环
开发语言·人工智能·vscode·codex·claude code
knqiufan6 天前
Claude Code 完全指南:使用方式、技巧与最佳实践
ai·llm·claude code
Tencent_TCB7 天前
AI Coding全流程教程——0基础搭建“MEMO”健康打卡全栈Web应用(附提示词)
前端·人工智能·ai·ai编程·codebuddy·claude code·cloudbase