OpenClaw 本地模型终极实战:vLLM 部署优化完整教程!

OpenClaw 如何切换到本地模型?如果希望在执行自动化任务时保持流畅、不出现卡顿,同时避免频繁触发上下文长度限制,那么选择一个合适的开源模型就非常关键。

对于 OpenClaw 来说,模型不仅需要具备良好的推理能力和语言理解能力,还需要拥有稳定的 工具调用(Tool Calling)能力。因为在自动化任务中,模型需要频繁调用各种工具完成操作,因此工具调用能力往往是选择模型时最重要的指标之一。

很多人在第一次尝试本地部署模型时,往往会选择 Ollama。它的优点确实很明显:安装简单、配置方便,几乎可以做到"傻瓜式"部署。

但在 OpenClaw 这种自动化任务场景下,Ollama 的调用方式和推理速度并不理想。实际使用中往往会遇到两个问题:

  • 推理速度较慢

  • 上下文长度很容易被耗尽

在连续运行多个任务后,经常会出现上下文不够用的情况。

因此,如果你希望获得更稳定、更高效的本地部署体验,就需要选择更合适的推理框架。

一般来说:

  • 远程集群 / 多 Agent 场景 :推荐使用 SGLang

  • 单卡本地部署 :强烈推荐 vLLM

目前来看,vLLM 可以说是单机部署 OpenClaw 的最佳解决方案之一。

接下来我就给大家详细介绍vLLM 部署本地模型并对接到OpenClaw 的整个过程:

前期准备:

在开始之前,建议大家安装下 Windows Terminal,它是一款新式、快速、高效、强大且高效的Windows 的终端程序,适用于命令行工具和命令提示符,PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统!

点击下载:https://pan.quark.cn/s/a909c9a5ae8c

一、安装 WSL2

在 PowerShell(管理员)执行:

bash 复制代码
wsl --install

安装完成后重启电脑,然后安装Ubuntu**,**

bash 复制代码
wsl --install -d Ubuntu

检查版本:

bash 复制代码
wsl --version

确保输出结果是:WSL2

二、WSL 安装 CUDA 驱动支持

先确认 Windows 已安装 NVIDIA 驱动。

检查:

bash 复制代码
nvidia-smi

然后在 WSL Ubuntu 里运行:

bash 复制代码
nvidia-smi

如果出现显卡信息说明 GPU直通成功。例如:

bash 复制代码
RTX 4090 # 根据你自己的显卡而定

三、安装 Python 环境

更新系统:

sudo apt update sudo apt upgrade -y

bash 复制代码
sudo apt update
sudo apt upgrade -y

安装 Python:

sudo apt install python3-pip python3-venv -y

sudo apt install python3-pip python3-venv -y

bash 复制代码
sudo apt install python3-pip python3-venv -y

创建虚拟环境:

cd ~ python3 -m venv vllm-env

bash 复制代码
cd ~
python3 -m venv vllm-env

进入环境:

source vllm-env/bin/activate

source vllm-env/bin/activate

bash 复制代码
source vllm-env/bin/activate

四、安装 vLLM

安装命令:

pip install --upgrade pip

pip install --upgrade pip pip install vllm

bash 复制代码
pip install --upgrade pip
pip install vllm

安装完成后测试:

python -c "import vllm; print('vLLM installed')"

python -c "import vllm; print('vLLM installed')"

bash 复制代码
python -c "import vllm; print('vLLM installed')"

五、下载模型

推荐模型:

bash 复制代码
Qwen2.5-14B-Instruct-AWQ

模型优点:

  • 中文强

  • Agent能力好

  • 支持更全面的工具调用能力

启动 vLLM 时会自动下载模型。

显存提示

本教程演示使用的是 24GB 显存显卡。如果你的显存更小,建议选择参数规模更小的模型,否则在加载模型时可能会出现:显存不足(Out of Memory)的问题。

如果显存不够大,那么可以选择:Qwen2.5-7B-Instruct-AWQ 或 Qwen2.5-4B 等更小的模型

六、启动 vLLM 服务

运行命令:

bash 复制代码
python -m vllm.entrypoints.openai.api\_server \\

\--model Qwen/Qwen2.5\-14B-Instruct-AWQ \\

\--quantization awq\_marlin \\

\--gpu-memory-utilization 0.9 \\

\--enable-auto-tool-choice \\

\--tool-call-parser hermes

python -m vllm.entrypoints.openai.api\_server \\ --model Qwen/Qwen2.5-14B-Instruct-AWQ \\ --quantization awq\_marlin \\ --gpu-memory-utilization 0.9 \\ --max-model-len 32768 \\ --enable-auto-tool-choice \\ --tool-call-parser hermes
bash 复制代码
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct-AWQ \
  --quantization awq_marlin \
  --gpu-memory-utilization 0.9 \
  --max-model-len 32768 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

成功后会看到:

说明 API 已启动成功。

七、测试模型

Windows PowerShell 测试:

curl http://127.0.0.1:8000/v1/models

curl http://127.0.0.1:8000/v1/models

bash 复制代码
curl http://127.0.0.1:8000/v1/models

返回模型信息:

Qwen/Qwen2.5-14B-Instruct-AWQ

说明连接正常。

八、安装 OpenClaw

在 WSL 子系统里执行安装命令:

先安装Nodejs

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -

sudo apt install -y nodejs

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -

sudo apt install -y nodejs

bash 复制代码
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -<br />sudo apt install -y nodejs

再执行安装Openclaw

sudo npm install -g openclaw@latest

sudo npm install -g openclaw@latest

bash 复制代码
sudo npm install -g openclaw@latest

九、OpenClaw 配置本地模型

进入配置:

bash 复制代码
openclaw onboard

添加模型:

模型提供商必须选择自定义的:

Base URL:http://127.0.0.1:8000/v1

API key:123456 (随便填写)

模型名称:Qwen2.5-14B-Instruct-AWQ

最后保存即可!

十、OpenClaw 推荐参数(优化)

为了避免卡顿:

Context length:6000--8000

Temperature:0.7

Max tokens:2048

十一、优化推理速度(强烈推荐)

vLLM启动参数建议:

**注意:**这是RTX4090显卡的配置,请根据你自己的显卡显存来适当修改max-model-len 后面的参数

bash 复制代码
python -m vllm.entrypoints.openai.api\_server \\

\--model Qwen/Qwen2.5\-14B-Instruct-AWQ \\

\--quantization awq\_marlin \\

\--gpu-memory-utilization 0.9 \\

\--enable-auto-tool-choice \\

\--tool-call-parser hermes

python -m vllm.entrypoints.openai.api\_server \\ --model Qwen/Qwen2.5-14B-Instruct-AWQ \\ --quantization awq\_marlin \\ --gpu-memory-utilization 0.9 \\ --max-model-len 32768 \\ --enable-auto-tool-choice \\ --tool-call-parser hermes
bash 复制代码
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct-AWQ \
  --quantization awq_marlin \
  --gpu-memory-utilization 0.9 \
  --max-model-len 32768 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

效果:

  • prefix cache 加速 prompt

  • GPU利用率更高

十二、解决长对话卡顿

在 OpenClaw System Prompt 加:

When the conversation becomes long,

summarize previous messages into a short memory.

Keep the memory under 200 tokens.

这样:

8000 token

200 token memory

速度不会下降。

十三、最终性能参考(RTX4090)

Qwen2.5-14B-Instruct-AWQ:

指标 数值
token生成速度 90--130 token/s
首 token 延迟 0.4 -- 0.8 秒
最大上下文 32K tokens(建议实际用 8K--16K)
显存占用 10--12GB

本地模型跑 Openclaw 就完全够用。

相关推荐
美酒没故事°1 天前
Open WebUI安装指南。搭建自己的自托管 AI 平台
人工智能·windows·ai
鸿乃江边鸟1 天前
Nanobot 从onboard启动命令来看个人助理Agent的实现
人工智能·ai
本旺1 天前
【Openclaw 】完美解决 Codex 认证失败
ai·codex·openclaw·小龙虾·gpt5.4
张張4081 天前
(域格)环境搭建和编译
c语言·开发语言·python·ai
乐鑫科技 Espressif1 天前
使用 MCP 服务器,把乐鑫文档接入 AI 工作流
人工智能·ai·esp32·乐鑫科技
语戚1 天前
Stable Diffusion 入门:架构、空间与生成流程概览
人工智能·ai·stable diffusion·aigc·模型
俊哥V1 天前
每日 AI 研究简报 · 2026-04-08
人工智能·ai
rrrjqy1 天前
什么是RAG?
ai
Swift社区1 天前
容错、动态、大模型:OpenClaw的三大关键词
openclaw
Flittly1 天前
【SpringAIAlibaba新手村系列】(15)MCP Client 调用本地服务
java·笔记·spring·ai·springboot