vllm、python、dcu - vllm、python、dcu技术,学习,经验文章

云游

2 年前

国产GPU中，VLLM0.5.0发布Qwen2.5-14B-Instruct-GPTQ-Int8模型，请求返回结果乱码国产GPU:DCU Z100推理框架：vllm0.5.0docker容器化部署运行如下代码：python -m vllm.entrypoints.openai.api_server --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 --served-model-name qwen-gptq --trust-remote-code --enforce-eager --max-model-len 256 --tensor-parallel-size 2 --