国产GPU中,VLLM0.5.0发布Qwen2.5-14B-Instruct-GPTQ-Int8模型,请求返回结果乱码

概述

国产GPU:

DCU Z100

推理框架:

vllm0.5.0

docker容器化部署

运行如下代码:

python -m vllm.entrypoints.openai.api_server --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 --served-model-name qwen-gptq --trust-remote-code --enforce-eager --max-model-len 256 --tensor-parallel-size 2 --dtype float16 --quantization gptq --port 8001 --host *.*.*.*

报:

解决方案

1.重新拉取docker容器

docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.5.0-dtk24.04.1-ubuntu20.04-py310-zk-v1

2.运行容器

docker run -it --name=dtk24041_qwen2_vllm -v /app/GLM-4-main:/work --privileged -v /app/models:/app/models -v /opt/hyhal:/opt/hyhal --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --security-opt seccomp=unconfined --ipc=host --network host --group-add video --ulimit memlock=-1:-1 --cap-add=SYS_PTRACE 023c9d2c0174 /bin/bash

3.进入容器

docker exec -it dtk24041_qwen2_vllm /bin/bash

4.运行

python -m vllm.entrypoints.openai.api_server --model /app/models/Qwen2.5-14B-Instruct-GPTQ-Int8 --served-model-name qwen-gptq --trust-remote-code --enforce-eager --max-model-len 256 --tensor-parallel-size 2 --dtype float16 --quantization gptq --port 8001 --host *.*.*.*

5.调用

curl http://*.*.*.*:8001/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "qwen-gptq","messages": {"role": "system", "content": "你是一个乐于助人的助手。"},{"role": "user", "content": "讲个笑话"},"stop": "\<\|im_end\|\>", "\<\|endoftext\|\>"}'

相关推荐
武子康2 小时前
调查研究-186 LangChain 和 LangGraph 的区别:从快速构建 Agent 到生产级工作流编排
人工智能·langchain·llm
武子康3 小时前
调查研究-185 CodeGraph 调研:给 AI 编程 Agent 一张代码库地图,少一点反复 grep(2026)
人工智能·openai·claude
aqi003 小时前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
混沌福王5 小时前
Electron三端统一架构:运行时Adapter、IPC能力边界与分层设计
人工智能·agent·ai编程
说了很好5 小时前
马尔可夫扩散链+损失函数推导,手把手实现原生Diffusion
人工智能
聂二AI落地内参5 小时前
合同抽取别停在 JSON:标准规则和交易日历才是硬仗
人工智能
冬哥聊AI5 小时前
滴滴Agent岗二面:RAG 系统的 LLM 幻觉怎么治?从两类根源讲到四道防线
人工智能
lyshlc5 小时前
# AI Agent的推迟判定协议:不确定性下的最优策略
人工智能
用户329901675055 小时前
用zod在运行时兜住AI返回的JSON
人工智能