vllm的部署和使用

conda create -n cosyvoice python=3.10.9 cudnn=9.1.1.17 nvidia/label/cuda-12.1.1::cuda-toolkit ffmpeg x264

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

pip install vllm==0.6.6

pip install transformers==4.46 modelscope==1.20.1

qwen2.5模型下载

from modelscope import snapshot_download

Downloading model checkpoint to a local dir model_dir

model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct')

相关推荐
我叫Double1 天前
本地服务器部署vllm+Qwen3-Coder-Next的模型
vllm
m0_564876842 天前
vllm的pageattention到底是怎么回事?
vllm
AI视觉网奇2 天前
docker vllm 开机启动
docker·容器·vllm
做个文艺程序员5 天前
vLLM 部署大模型推理服务完全教程:吞吐量是 Ollama 的 10 倍,生产环境首选
vllm·vllm教程
liuyunshengsir5 天前
LMCache + vLLM 部署指南(以 Qwen3-0.6B 为例)
vllm
诸葛老刘5 天前
在PC机上 使用docker vLLM镜像部署Qwen3-1.7B
docker·vllm
Soonyang Zhang6 天前
vllm分析(二)——http request的入口处理
人工智能·vllm·推理框架
xyhshen6 天前
如何两台atlas-a2服务器物理机,基于vllm-ascend部署qwen3.5 397b-w8a8-mtp大模型
vllm
zadyd6 天前
vLLM Linux 双卡部署大模型服务器指南
linux·人工智能·python·机器学习·vllm