OpenClaw 本地模型终极实战:vLLM 部署优化完整教程!

OpenClaw 如何切换到本地模型?如果希望在执行自动化任务时保持流畅、不出现卡顿,同时避免频繁触发上下文长度限制,那么选择一个合适的开源模型就非常关键。

对于 OpenClaw 来说,模型不仅需要具备良好的推理能力和语言理解能力,还需要拥有稳定的 工具调用(Tool Calling)能力。因为在自动化任务中,模型需要频繁调用各种工具完成操作,因此工具调用能力往往是选择模型时最重要的指标之一。

很多人在第一次尝试本地部署模型时,往往会选择 Ollama。它的优点确实很明显:安装简单、配置方便,几乎可以做到"傻瓜式"部署。

但在 OpenClaw 这种自动化任务场景下,Ollama 的调用方式和推理速度并不理想。实际使用中往往会遇到两个问题:

  • 推理速度较慢

  • 上下文长度很容易被耗尽

在连续运行多个任务后,经常会出现上下文不够用的情况。

因此,如果你希望获得更稳定、更高效的本地部署体验,就需要选择更合适的推理框架。

一般来说:

  • 远程集群 / 多 Agent 场景 :推荐使用 SGLang

  • 单卡本地部署 :强烈推荐 vLLM

目前来看,vLLM 可以说是单机部署 OpenClaw 的最佳解决方案之一。

接下来我就给大家详细介绍vLLM 部署本地模型并对接到OpenClaw 的整个过程:

前期准备:

在开始之前,建议大家安装下 Windows Terminal,它是一款新式、快速、高效、强大且高效的Windows 的终端程序,适用于命令行工具和命令提示符,PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统!

点击下载:https://pan.quark.cn/s/a909c9a5ae8c

一、安装 WSL2

在 PowerShell(管理员)执行:

bash 复制代码
wsl --install

安装完成后重启电脑,然后安装Ubuntu**,**

bash 复制代码
wsl --install -d Ubuntu

检查版本:

bash 复制代码
wsl --version

确保输出结果是:WSL2

二、WSL 安装 CUDA 驱动支持

先确认 Windows 已安装 NVIDIA 驱动。

检查:

bash 复制代码
nvidia-smi

然后在 WSL Ubuntu 里运行:

bash 复制代码
nvidia-smi

如果出现显卡信息说明 GPU直通成功。例如:

bash 复制代码
RTX 4090 # 根据你自己的显卡而定

三、安装 Python 环境

更新系统:

sudo apt update sudo apt upgrade -y

bash 复制代码
sudo apt update
sudo apt upgrade -y

安装 Python:

sudo apt install python3-pip python3-venv -y

sudo apt install python3-pip python3-venv -y

bash 复制代码
sudo apt install python3-pip python3-venv -y

创建虚拟环境:

cd ~ python3 -m venv vllm-env

bash 复制代码
cd ~
python3 -m venv vllm-env

进入环境:

source vllm-env/bin/activate

source vllm-env/bin/activate

bash 复制代码
source vllm-env/bin/activate

四、安装 vLLM

安装命令:

pip install --upgrade pip

pip install --upgrade pip pip install vllm

bash 复制代码
pip install --upgrade pip
pip install vllm

安装完成后测试:

python -c "import vllm; print('vLLM installed')"

python -c "import vllm; print('vLLM installed')"

bash 复制代码
python -c "import vllm; print('vLLM installed')"

五、下载模型

推荐模型:

bash 复制代码
Qwen2.5-14B-Instruct-AWQ

模型优点:

  • 中文强

  • Agent能力好

  • 支持更全面的工具调用能力

启动 vLLM 时会自动下载模型。

显存提示

本教程演示使用的是 24GB 显存显卡。如果你的显存更小,建议选择参数规模更小的模型,否则在加载模型时可能会出现:显存不足(Out of Memory)的问题。

如果显存不够大,那么可以选择:Qwen2.5-7B-Instruct-AWQ 或 Qwen2.5-4B 等更小的模型

六、启动 vLLM 服务

运行命令:

bash 复制代码
python -m vllm.entrypoints.openai.api\_server \\

\--model Qwen/Qwen2.5\-14B-Instruct-AWQ \\

\--quantization awq\_marlin \\

\--gpu-memory-utilization 0.9 \\

\--enable-auto-tool-choice \\

\--tool-call-parser hermes

python -m vllm.entrypoints.openai.api\_server \\ --model Qwen/Qwen2.5-14B-Instruct-AWQ \\ --quantization awq\_marlin \\ --gpu-memory-utilization 0.9 \\ --max-model-len 32768 \\ --enable-auto-tool-choice \\ --tool-call-parser hermes
bash 复制代码
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct-AWQ \
  --quantization awq_marlin \
  --gpu-memory-utilization 0.9 \
  --max-model-len 32768 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

成功后会看到:

说明 API 已启动成功。

七、测试模型

Windows PowerShell 测试:

curl http://127.0.0.1:8000/v1/models

curl http://127.0.0.1:8000/v1/models

bash 复制代码
curl http://127.0.0.1:8000/v1/models

返回模型信息:

Qwen/Qwen2.5-14B-Instruct-AWQ

说明连接正常。

八、安装 OpenClaw

在 WSL 子系统里执行安装命令:

先安装Nodejs

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -

sudo apt install -y nodejs

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -

sudo apt install -y nodejs

bash 复制代码
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -<br />sudo apt install -y nodejs

再执行安装Openclaw

sudo npm install -g openclaw@latest

sudo npm install -g openclaw@latest

bash 复制代码
sudo npm install -g openclaw@latest

九、OpenClaw 配置本地模型

进入配置:

bash 复制代码
openclaw onboard

添加模型:

模型提供商必须选择自定义的:

Base URL:http://127.0.0.1:8000/v1

API key:123456 (随便填写)

模型名称:Qwen2.5-14B-Instruct-AWQ

最后保存即可!

十、OpenClaw 推荐参数(优化)

为了避免卡顿:

Context length:6000--8000

Temperature:0.7

Max tokens:2048

十一、优化推理速度(强烈推荐)

vLLM启动参数建议:

**注意:**这是RTX4090显卡的配置,请根据你自己的显卡显存来适当修改max-model-len 后面的参数

bash 复制代码
python -m vllm.entrypoints.openai.api\_server \\

\--model Qwen/Qwen2.5\-14B-Instruct-AWQ \\

\--quantization awq\_marlin \\

\--gpu-memory-utilization 0.9 \\

\--enable-auto-tool-choice \\

\--tool-call-parser hermes

python -m vllm.entrypoints.openai.api\_server \\ --model Qwen/Qwen2.5-14B-Instruct-AWQ \\ --quantization awq\_marlin \\ --gpu-memory-utilization 0.9 \\ --max-model-len 32768 \\ --enable-auto-tool-choice \\ --tool-call-parser hermes
bash 复制代码
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct-AWQ \
  --quantization awq_marlin \
  --gpu-memory-utilization 0.9 \
  --max-model-len 32768 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

效果:

  • prefix cache 加速 prompt

  • GPU利用率更高

十二、解决长对话卡顿

在 OpenClaw System Prompt 加:

When the conversation becomes long,

summarize previous messages into a short memory.

Keep the memory under 200 tokens.

这样:

8000 token

200 token memory

速度不会下降。

十三、最终性能参考(RTX4090)

Qwen2.5-14B-Instruct-AWQ:

指标 数值
token生成速度 90--130 token/s
首 token 延迟 0.4 -- 0.8 秒
最大上下文 32K tokens(建议实际用 8K--16K)
显存占用 10--12GB

本地模型跑 Openclaw 就完全够用。

相关推荐
鸡吃丸子2 小时前
如何编写一个高质量的AI Skill
前端·ai
夏星印2 小时前
学习吴恩达课程机器学习笔记
人工智能·笔记·学习·机器学习·ai
包饭厅咸鱼2 小时前
小龙虾openclaw----Windows+Wsl+Docker 安装openclaw 并接入飞书
windows·docker·openclaw·小龙虾
智算菩萨3 小时前
AGI神话:人工通用智能的幻象如何扭曲与分散数字治理的注意力
论文阅读·人工智能·深度学习·ai·agi
arvin_xiaoting3 小时前
OpenClaw学习总结_I_核心架构系列_Gateway架构详解
学习·架构·llm·gateway·ai-agent·飞书机器人·openclaw
樂油3 小时前
小龙虾OpenClaw本地部署(四)连接ollama模型(qwen3.5:0.8b为例)
ollama·openclaw
MadPrinter3 小时前
Attention Residuals 代码实现:从原理到 PyTorch 实战(第 2 篇)
人工智能·pytorch·python·ai·自动化·openclaw
supersolon3 小时前
OpenClaw的引导配置(onboard)流程
ai·ai助理·openclaw·龙虾·onboard
yuzhucu3 小时前
OpenClaw 多智能体部署指南
openclaw