A10服务器使用vllm推理框架成功运行Qwen3大模型

1.下载Qwen3大模型:

python 复制代码
git clone https://www.modelscope.cn/Qwen/Qwen3-1.7B.git

放在服务器的/mnt/workspace/Qwen3-1.7B目录下。

2.创建python虚拟环境:

python 复制代码
python3 -m venv venv1
source venv1/bin/activate

3.安装vllm推理框架

python 复制代码
pip install vllm 

4.启动vllm服务

python 复制代码
CUDA_VISIBLE_DEVICES=0 \
python3 -m vllm.entrypoints.openai.api_server \
        --model /mnt/workspace/Qwen3-1.7B \
        --served-model-name qwen3 \
        --gpu-memory-utilization=0.85 \
        --tensor-parallel-size 1 \
        --trust-remote-code

注意以下几点:

(1)如果不指定端口,则vllm默认端口是8000;

(2)参数gpu-memory-utilization必须加上,不然可能会报oom显存不足的错误;

(3)tensor-parallel-size的个数,取决于使用的GPU数量。

启动需加载1-2分钟左右,启动结果如下:

5.查询大模型

python 复制代码
curl http://localhost:8000/v1/models

查询到名字为qwen3的模型:

6.调用大模型服务

python 复制代码
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "qwen3",
  "messages": [
    {"role": "user", "content": "介绍一下你自己"}
  ],
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20,
  "max_tokens": 128,
  "presence_penalty": 1.5,
  "chat_template_kwargs": {"enable_thinking": false}
}'

返回结果:

7.显卡使用情况

相关推荐
JSU_曾是此间年少1 分钟前
docker 使用指南
运维·docker·容器
北珣.3 分钟前
docker-存储卷
运维·docker·容器
yenggd4 分钟前
samba服务配置原理
服务器·开发语言·php
倔强的石头1066 分钟前
openEuler 开发环境搭建与工具链优化实践深度评测
运维·服务器·操作系统·openeuler
翼龙云_cloud7 分钟前
亚马逊云渠道商:如何3 步实现 AWS RDS 读写分离?
运维·服务器·云计算·php·aws
く成哦8 分钟前
Rancher部署k8s集群:开启容器编排新篇章
运维·docker·云原生·容器·kubernetes·rancher
嘉禾望岗5038 分钟前
lvs+keepalived轮询访问doris集群
linux·服务器·lvs
_OP_CHEN9 分钟前
【Linux系统编程】(十)从入门到精通!Linux 调试器 gdb/cgdb 超全使用指南,程序员必备调试神器
linux·运维·c/c++·linux开发工具·调试器·gdb/cgdb
7澄111 分钟前
Java Socket 网络编程实战:从基础通信到线程池优化
java·服务器·网络·网络编程·socket·多线程·客户端
2501_9160088912 分钟前
App 上架服务行业的实际工作流程与工具选择 从人工代办到跨平台自动化的转变
android·运维·ios·小程序·uni-app·自动化·iphone