通过huggingface的hf download下载的Qwen模型,如何使用用Docker 启动 vLLM 服务

如果是通过 huggingface_hubhf download 下载的 Qwen 模型,只需将本地下载路径映射到 vLLM 容器,即可用 Docker 启动 vLLM 服务,步骤如下:

步骤 1:确认本地 Qwen 模型的路径

假设你通过 hf download 将 Qwen 模型下载到了本地目录(比如 /data/qwen-models/Qwen-7B-Chat),需确保该目录包含模型的所有文件(config.jsonmodel.safetensorstokenizer.model 等)。

步骤 2:用 Docker 启动 vLLM 服务(映射本地模型路径)

执行以下命令(核心是将本地模型目录挂载到容器内):

bash 复制代码
docker run --gpus all --shm-size 1g -p 8000:8000 \
  # 将本地下载的Qwen模型目录映射到容器的/models路径
  -v /data/qwen-models/Qwen-7B-Chat:/models/Qwen-7B-Chat \
  vllm/vllm-openai:latest \
  # 指定容器内的模型路径
  --model /models/Qwen-7B-Chat \
  # Qwen需要加载自定义代码(必须加)
  --trust-remote-code \
  # 暴露给API的模型名称(Dify中要对应)
  --served-model-name qwen-7b-chat \
  # Qwen支持的最大上下文长度
  --max-model-len 8192

关键说明

  1. 路径映射-v 本地路径:容器内路径 是核心,确保 vLLM 能读取到本地下载的模型文件;
  2. --trust-remote-code :Qwen 模型包含自定义代码(如 modeling_qwen.py),必须加此参数才能正常加载;
  3. 端口与API :启动后,OpenAI 兼容 API 地址为 http://你的服务器IP:8000/v1,后续接入 Dify 的方式和之前一致。

验证服务是否正常

执行测试请求,确认 Qwen 模型可调用:

bash 复制代码
curl http://你的服务器IP:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen-7b-chat",
    "messages": [{"role": "user", "content": "介绍下你自己"}]
  }'

若返回 Qwen 的回复,则说明服务启动成功。

相关推荐
财经资讯数据_灵砚智能5 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
二哈赛车手5 小时前
新人笔记---最终版智能体图片分析完整方案,包括一些总结于经验,以及各种优化点讲解
java·笔记·spring·ai·springboot
m0_380167145 小时前
加密货币价格 API、市场数据 API 与 分析 API 有什么区别?
人工智能·ai·区块链
带刺的坐椅6 小时前
Solon v4.0 正式发布,高考记忆版
java·ai·solon·flow·solon-ai
智海观潮7 小时前
OpenClaw生态全景解析 - 9大核心工具赋能 AI 自动化落地
ai·agent·skills·ai 自动化·openclaw
一切皆是因缘际会7 小时前
LLM轻量化联邦微调机理
数据结构·人工智能·数学建模·ai
极客老王说Agent8 小时前
2026全业务链条断层破解:智能体如何重构端到端业务闭环
人工智能·ai·chatgpt·重构
源图客9 小时前
【AI向量数据库】Weaviate介绍与部署
运维·docker·容器
程序员cxuan9 小时前
瑞幸出 CLI 了,这会是迈向 AGI 的第一步吗?
ai·llm·agi
哥布林学者9 小时前
深度学习进阶(三十)从 Transformer 到 LLaMA:现代 LLM 架构总览
机器学习·ai