vllm的部署和使用

conda create -n cosyvoice python=3.10.9 cudnn=9.1.1.17 nvidia/label/cuda-12.1.1::cuda-toolkit ffmpeg x264

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

pip install vllm==0.6.6

pip install transformers==4.46 modelscope==1.20.1

qwen2.5模型下载

from modelscope import snapshot_download

Downloading model checkpoint to a local dir model_dir

model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct')

相关推荐
陕西小伙伴网络科技有限公司2 天前
AMD显卡运行qwen3.5-使用VLLM
vllm
柯南小海盗3 天前
大模型GPU选型与部署资源评估完全指南:从RTX 4090到H20,从vLLM到SGLang
语言模型·vllm·sglang
daoboker3 天前
vllm自动化压测脚本
vllm
YoanAILab3 天前
AI 推理系统架构怎么选?图像生成与文本生成的分层选型思路(ComfyUI / Dify / vLLM / Triton)
人工智能·系统架构·comfyui·dify·vllm·ai工程
NeilNiu4 天前
本地部署Ollama及部署模型
vllm
Forrit4 天前
关于vLLM框架
vllm
SunnyRivers4 天前
快速理解vLLM命令行工具serve
命令行·serve·vllm
田井中律.5 天前
linux部署VLLM、大模型(详细图文)
vllm
陈 洪 伟5 天前
大模型推理引擎vLLM(19): vLLM中的DBO(Dual Batch Overlap)功能代码实现分析
vllm
AIGC_北苏6 天前
Qwen3.5开源模型实测
vllm