vllm的部署和使用

conda create -n cosyvoice python=3.10.9 cudnn=9.1.1.17 nvidia/label/cuda-12.1.1::cuda-toolkit ffmpeg x264

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

pip install vllm==0.6.6

pip install transformers==4.46 modelscope==1.20.1

qwen2.5模型下载

from modelscope import snapshot_download

Downloading model checkpoint to a local dir model_dir

model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct')

相关推荐
做个文艺程序员1 天前
第08篇:K8s 部署 AI 大模型推理服务:GPU 调度 × vLLM × Java 客户端集成——从 0 到生产的完整方案
人工智能·kubernetes·vllm
reset20212 天前
vllm性能优化
性能优化·vllm
我叫张土豆2 天前
V100 显卡部署 Qwen3-ASR-1.7B 语音识别模型(vLLM + Docker 完整教程)
docker·语音识别·vllm
碳基硅坊3 天前
MTP在vLLM与llama.cpp上的性能对比:Qwen3.6与Gemma4实测
人工智能·vllm·llama.cpp·模型加速·mtp
Soonyang Zhang3 天前
vllm分析(八)——deepseek v4 Attention (SWA + CSA + HCA)
vllm·推理框架·kv cache
Soonyang Zhang4 天前
vllm分析(七)——模型结构分析(llama, qwen3moe)
vllm·推理框架
陈 洪 伟4 天前
大模型推理引擎vLLM(25): 从--kv-cache-dtype fp8_e5m2时gsm8k答非所问的bug梳理kv cache相应代码片段
vllm·kvcache
zjun30214 天前
【昇腾950】如何在昇腾950pr的容器环境上部署vllm
vllm·vllm-ascend·torch_npu·昇腾950
小何code5 天前
人工智能【第55篇】大模型推理优化:vLLM与推理加速技术
vllm·大模型部署·推理优化·pagedattention
清风lsq8 天前
大模型-vllm 自投机解码可行性分析
vllm·大模型推理