openclaw vllm 20260312

dragonchow1232026-03-13 17:22

赠送14M的token用完了，打算vllm部署Qwen来跑一跑openclaw

1，起vllm服务

sh 复制代码

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server \
	--model Qwen3-32B \
	--served-model-name qwen3-32b \
	--tensor-parallel-size 2 \
	--enable-auto-tool-choice \
    --tool-call-parser hermes \
	--port 50072

2，openclaw配置vllm的provider

openclaw onboard配置一下provider，url：http://ip:50072/v1, 模型名qwen3-32b，apiKey随便填一个

就能调自己的vllm服务了，可以随便测，不用担心tokens；

问题

如何停止vllm服务，换个模型重启？不能直接kill，如下重启：
sh 复制代码
```
pkill -15 -f vllm.entrypoints.openai.api_server
# 等gpu显存退了
pkill -9 -f vllm
```
tool parser，vllm起服务名字中，需要加上tool相关参数，因为这边基本是要tool能力的。
max_model_len参数不需要设置，因为默认用模型config.json中max_position_embeddings，超过它的话又会报错。
qwen3-32b，长度太短，40960，聊一轮就报长度超了，没法用在openclaw中。
qwen3-vl-32b-instruct的max_position_embeddings=26w，够用了；但是效果不行，一直在读文件，停不下来；虽然qwen3-vl用了图片视频以及长文本，但真正的长文本能力应该比较弱；
另外，在docker中装的openclaw，在docker里面，只能前台运行"openclaw gateway"。
qwen3-vl-32b-thinking，思考太长了，费token费时间，再测测。