A10服务器使用vllm推理框架成功运行Qwen3大模型

1.下载Qwen3大模型:

python 复制代码
git clone https://www.modelscope.cn/Qwen/Qwen3-1.7B.git

放在服务器的/mnt/workspace/Qwen3-1.7B目录下。

2.创建python虚拟环境:

python 复制代码
python3 -m venv venv1
source venv1/bin/activate

3.安装vllm推理框架

python 复制代码
pip install vllm 

4.启动vllm服务

python 复制代码
CUDA_VISIBLE_DEVICES=0 \
python3 -m vllm.entrypoints.openai.api_server \
        --model /mnt/workspace/Qwen3-1.7B \
        --served-model-name qwen3 \
        --gpu-memory-utilization=0.85 \
        --tensor-parallel-size 1 \
        --trust-remote-code

注意以下几点:

(1)如果不指定端口,则vllm默认端口是8000;

(2)参数gpu-memory-utilization必须加上,不然可能会报oom显存不足的错误;

(3)tensor-parallel-size的个数,取决于使用的GPU数量。

启动需加载1-2分钟左右,启动结果如下:

5.查询大模型

python 复制代码
curl http://localhost:8000/v1/models

查询到名字为qwen3的模型:

6.调用大模型服务

python 复制代码
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "qwen3",
  "messages": [
    {"role": "user", "content": "介绍一下你自己"}
  ],
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20,
  "max_tokens": 128,
  "presence_penalty": 1.5,
  "chat_template_kwargs": {"enable_thinking": false}
}'

返回结果:

7.显卡使用情况

相关推荐
tap.AI5 分钟前
Deepseek(九)多语言客服自动化:跨境电商中的多币种、多语种投诉实时处理
运维·人工智能·自动化
ling-4512 分钟前
Linux-day09 11
linux·运维·服务器
202321336054 刘12 分钟前
Linux常用命令分类整理
linux·运维·数据库
zbguolei14 分钟前
Debian提示:“用户名” 不是 sudoers 文件
linux·服务器·debian
oMcLin15 分钟前
如何在 Debian 11 上通过配置 LVM 和 RAID 结合,提升大规模存储系统的性能与冗余性
运维·debian
C_心欲无痕24 分钟前
网络相关 - Ngrok内网穿透使用
运维·前端·网络
宇钶宇夕27 分钟前
CoDeSys入门实战一起学习(四):应用程序运行、监控与调试
运维·自动化
zhyf11928 分钟前
零刻AI Max395(Ubuntu 24.04)AMD 显卡监控工具(amdgpu_top)部署手册
linux·运维·ubuntu
谢平康41 分钟前
ssh-copy-id 后还是一直需要密码登录的一个解决办法
运维·ssh
zhangdawei8381 小时前
英伟达GB200,GB300和普通服务器如dell R740xd有什么区别?
运维·服务器·人工智能