国产GPU中,VLLM0.5.0发布Qwen2.5-14B-Instruct-GPTQ-Int8模型,请求返回结果乱码

概述

国产GPU:

DCU Z100

推理框架:

vllm0.5.0

docker容器化部署

运行如下代码:

python -m vllm.entrypoints.openai.api_server --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 --served-model-name qwen-gptq --trust-remote-code --enforce-eager --max-model-len 256 --tensor-parallel-size 2 --dtype float16 --quantization gptq --port 8001 --host *.*.*.*

报:

解决方案

1.重新拉取docker容器

docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.5.0-dtk24.04.1-ubuntu20.04-py310-zk-v1

2.运行容器

docker run -it --name=dtk24041_qwen2_vllm -v /app/GLM-4-main:/work --privileged -v /app/models:/app/models -v /opt/hyhal:/opt/hyhal --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --security-opt seccomp=unconfined --ipc=host --network host --group-add video --ulimit memlock=-1:-1 --cap-add=SYS_PTRACE 023c9d2c0174 /bin/bash

3.进入容器

docker exec -it dtk24041_qwen2_vllm /bin/bash

4.运行

python -m vllm.entrypoints.openai.api_server --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 --served-model-name qwen-gptq --trust-remote-code --enforce-eager --max-model-len 256 --tensor-parallel-size 2 --dtype float16 --quantization gptq --port 8001 --host *.*.*.*

5.调用

curl http://*.*.*.*:8001/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "qwen-gptq","messages": [{"role": "system", "content": "你是一个乐于助人的助手。"},{"role": "user", "content": "讲个笑话"}],"stop": ["<|im_end|>", "<|endoftext|>"]}'

相关推荐
云雾J视界2 分钟前
当AI能写代码时,顶级工程师在做什么?大模型时代的系统架构思维重塑
人工智能·系统架构·思维重塑·能力边界·能力重构·系统定义
TechWJ3 分钟前
Rokid AR眼镜智能提词器开发实战:从SDK集成到AI自动跟踪
人工智能·ai·ar·ar眼镜
帮帮志4 分钟前
05【AI大模型对话/创建项目】通过pycharm创建大模型项目,关联Anaconda环境
ide·人工智能·python·语言模型·pycharm
海边夕阳20064 分钟前
【每天一个AI小知识】:什么是目标检测?
人工智能·python·深度学习·目标检测·机器学习·计算机视觉·目标跟踪
明月照山海-10 分钟前
机器学习周报二十四
人工智能·机器学习·计算机视觉
忆湫淮11 分钟前
ENVI 5.6 利用现场标准校准板计算地表反射率具体步骤
大数据·人工智能·算法
lpfasd12312 分钟前
现有版权在未来的价值:AI 泛滥时代的人类内容黄金
大数据·人工智能
cyyt12 分钟前
深度学习周报(11.24~11.30)
人工智能·深度学习
丝斯201112 分钟前
AI学习笔记整理(24)—— AI核心技术(深度学习8)
人工智能·笔记·学习
腾讯云开发者18 分钟前
架构火花|一线视角下的AI:从应用边界到落地难题
人工智能