OpenClaw 如何切换到本地模型?如果希望在执行自动化任务时保持流畅、不出现卡顿,同时避免频繁触发上下文长度限制,那么选择一个合适的开源模型就非常关键。
对于 OpenClaw 来说,模型不仅需要具备良好的推理能力和语言理解能力,还需要拥有稳定的 工具调用(Tool Calling)能力。因为在自动化任务中,模型需要频繁调用各种工具完成操作,因此工具调用能力往往是选择模型时最重要的指标之一。

很多人在第一次尝试本地部署模型时,往往会选择 Ollama。它的优点确实很明显:安装简单、配置方便,几乎可以做到"傻瓜式"部署。
但在 OpenClaw 这种自动化任务场景下,Ollama 的调用方式和推理速度并不理想。实际使用中往往会遇到两个问题:
-
推理速度较慢
-
上下文长度很容易被耗尽
在连续运行多个任务后,经常会出现上下文不够用的情况。
因此,如果你希望获得更稳定、更高效的本地部署体验,就需要选择更合适的推理框架。
一般来说:
-
远程集群 / 多 Agent 场景 :推荐使用 SGLang
-
单卡本地部署 :强烈推荐 vLLM
目前来看,vLLM 可以说是单机部署 OpenClaw 的最佳解决方案之一。
接下来我就给大家详细介绍vLLM 部署本地模型并对接到OpenClaw 的整个过程:
前期准备:
在开始之前,建议大家安装下 Windows Terminal,它是一款新式、快速、高效、强大且高效的Windows 的终端程序,适用于命令行工具和命令提示符,PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统!
点击下载:https://pan.quark.cn/s/a909c9a5ae8c

一、安装 WSL2
在 PowerShell(管理员)执行:
bash
wsl --install
安装完成后重启电脑,然后安装Ubuntu**,**
bash
wsl --install -d Ubuntu
检查版本:
bash
wsl --version
确保输出结果是:WSL2
二、WSL 安装 CUDA 驱动支持
先确认 Windows 已安装 NVIDIA 驱动。
检查:
bash
nvidia-smi
然后在 WSL Ubuntu 里运行:
bash
nvidia-smi
如果出现显卡信息说明 GPU直通成功。例如:
bash
RTX 4090 # 根据你自己的显卡而定
三、安装 Python 环境
更新系统:
sudo apt update sudo apt upgrade -y
bash
sudo apt update
sudo apt upgrade -y
安装 Python:
sudo apt install python3-pip python3-venv -y
sudo apt install python3-pip python3-venv -y
bash
sudo apt install python3-pip python3-venv -y
创建虚拟环境:
cd ~ python3 -m venv vllm-env
bash
cd ~
python3 -m venv vllm-env
进入环境:
source vllm-env/bin/activate
source vllm-env/bin/activate
bash
source vllm-env/bin/activate
四、安装 vLLM
安装命令:
pip install --upgrade pip
pip install --upgrade pip pip install vllm
bash
pip install --upgrade pip
pip install vllm
安装完成后测试:
python -c "import vllm; print('vLLM installed')"
python -c "import vllm; print('vLLM installed')"
bash
python -c "import vllm; print('vLLM installed')"
五、下载模型
推荐模型:
bash
Qwen2.5-14B-Instruct-AWQ
模型优点:
-
中文强
-
Agent能力好
-
支持更全面的工具调用能力
启动 vLLM 时会自动下载模型。
显存提示
本教程演示使用的是 24GB 显存显卡。如果你的显存更小,建议选择参数规模更小的模型,否则在加载模型时可能会出现:显存不足(Out of Memory)的问题。
如果显存不够大,那么可以选择:Qwen2.5-7B-Instruct-AWQ 或 Qwen2.5-4B 等更小的模型
六、启动 vLLM 服务
运行命令:
bash
python -m vllm.entrypoints.openai.api\_server \\
\--model Qwen/Qwen2.5\-14B-Instruct-AWQ \\
\--quantization awq\_marlin \\
\--gpu-memory-utilization 0.9 \\
\--enable-auto-tool-choice \\
\--tool-call-parser hermes
python -m vllm.entrypoints.openai.api\_server \\ --model Qwen/Qwen2.5-14B-Instruct-AWQ \\ --quantization awq\_marlin \\ --gpu-memory-utilization 0.9 \\ --max-model-len 32768 \\ --enable-auto-tool-choice \\ --tool-call-parser hermes
bash
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-14B-Instruct-AWQ \
--quantization awq_marlin \
--gpu-memory-utilization 0.9 \
--max-model-len 32768 \
--enable-auto-tool-choice \
--tool-call-parser hermes
成功后会看到:

说明 API 已启动成功。
七、测试模型
在 Windows PowerShell 测试:
curl http://127.0.0.1:8000/v1/models
curl http://127.0.0.1:8000/v1/models
bash
curl http://127.0.0.1:8000/v1/models
返回模型信息:
Qwen/Qwen2.5-14B-Instruct-AWQ
说明连接正常。
八、安装 OpenClaw
在 WSL 子系统里执行安装命令:
先安装Nodejs
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt install -y nodejs
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt install -y nodejs
bash
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -<br />sudo apt install -y nodejs
再执行安装Openclaw
sudo npm install -g openclaw@latest
sudo npm install -g openclaw@latest
bash
sudo npm install -g openclaw@latest
九、OpenClaw 配置本地模型
进入配置:
bash
openclaw onboard
添加模型:
模型提供商必须选择自定义的:

Base URL:http://127.0.0.1:8000/v1
API key:123456 (随便填写)
模型名称:Qwen2.5-14B-Instruct-AWQ
最后保存即可!
十、OpenClaw 推荐参数(优化)
为了避免卡顿:
Context length:6000--8000
Temperature:0.7
Max tokens:2048
十一、优化推理速度(强烈推荐)
vLLM启动参数建议:
**注意:**这是RTX4090显卡的配置,请根据你自己的显卡显存来适当修改max-model-len 后面的参数
bash
python -m vllm.entrypoints.openai.api\_server \\
\--model Qwen/Qwen2.5\-14B-Instruct-AWQ \\
\--quantization awq\_marlin \\
\--gpu-memory-utilization 0.9 \\
\--enable-auto-tool-choice \\
\--tool-call-parser hermes
python -m vllm.entrypoints.openai.api\_server \\ --model Qwen/Qwen2.5-14B-Instruct-AWQ \\ --quantization awq\_marlin \\ --gpu-memory-utilization 0.9 \\ --max-model-len 32768 \\ --enable-auto-tool-choice \\ --tool-call-parser hermes
bash
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-14B-Instruct-AWQ \
--quantization awq_marlin \
--gpu-memory-utilization 0.9 \
--max-model-len 32768 \
--enable-auto-tool-choice \
--tool-call-parser hermes
效果:
-
prefix cache 加速 prompt
-
GPU利用率更高
十二、解决长对话卡顿
在 OpenClaw System Prompt 加:
When the conversation becomes long,
summarize previous messages into a short memory.
Keep the memory under 200 tokens.
这样:
8000 token
↓
200 token memory
速度不会下降。
十三、最终性能参考(RTX4090)
Qwen2.5-14B-Instruct-AWQ:
| 指标 | 数值 |
|---|---|
| token生成速度 | 90--130 token/s |
| 首 token 延迟 | 0.4 -- 0.8 秒 |
| 最大上下文 | 32K tokens(建议实际用 8K--16K) |
| 显存占用 | 10--12GB |
本地模型跑 Openclaw 就完全够用。

