赠送14M的token用完了,打算vllm部署Qwen来跑一跑openclaw
1,起vllm服务
sh
CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server \
--model Qwen3-32B \
--served-model-name qwen3-32b \
--tensor-parallel-size 2 \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--port 50072
2,openclaw配置vllm的provider
openclaw onboard配置一下provider,url:http://ip:50072/v1, 模型名qwen3-32b,apiKey随便填一个
就能调自己的vllm服务了,可以随便测,不用担心tokens;
问题
-
如何停止vllm服务,换个模型重启?不能直接kill,如下重启:
shpkill -15 -f vllm.entrypoints.openai.api_server # 等gpu显存退了 pkill -9 -f vllm -
tool parser,vllm起服务名字中,需要加上tool相关参数,因为这边基本是要tool能力的。
-
max_model_len参数不需要设置,因为默认用模型config.json中max_position_embeddings,超过它的话又会报错。
-
qwen3-32b,长度太短,40960,聊一轮就报长度超了,没法用在openclaw中。
-
qwen3-vl-32b-instruct的max_position_embeddings=26w,够用了;但是效果不行,一直在读文件,停不下来;虽然qwen3-vl用了图片视频以及长文本,但真正的长文本能力应该比较弱;
-
另外,在docker中装的openclaw,在docker里面,只能前台运行"openclaw gateway"。
-
qwen3-vl-32b-thinking,思考太长了,费token费时间,再测测。