vllm的部署和使用

conda create -n cosyvoice python=3.10.9 cudnn=9.1.1.17 nvidia/label/cuda-12.1.1::cuda-toolkit ffmpeg x264

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

pip install vllm==0.6.6

pip install transformers==4.46 modelscope==1.20.1

qwen2.5模型下载

from modelscope import snapshot_download

Downloading model checkpoint to a local dir model_dir

model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct')

相关推荐
风格lu1 个月前
基于Kubernetes分布式部署DeepSeek-R1(在线快速版)
分布式·容器·kubernetes·vllm·deepseek
kcarly1 个月前
vllm的使用方式,入门教程
大模型·vllm
LZXCyrus4 个月前
【杂记】vLLM如何指定GPU单卡/多卡离线推理
人工智能·经验分享·python·深度学习·语言模型·llm·vllm
探索云原生4 个月前
大模型推理指南:使用 vLLM 实现高效推理
ai·云原生·kubernetes·gpu·vllm
野指针小李5 个月前
LLaMA-Factory学习笔记(1)——采用LORA对大模型进行SFT并采用vLLM部署的全流程
lora·sft·vllm·llama-factory
内卷焦虑人士5 个月前
【Bug】RuntimeError: Engine loop has died
1024程序员节·vllm·wsl2
yuanlulu5 个月前
vllm启动大语言模型时指定chat_template
人工智能·深度学习·语言模型·自然语言处理·大语言模型·vllm
AI_小站6 个月前
图解大模型计算加速系列:vLLM源码解析1,整体架构
人工智能·深度学习·架构·llm·大语言模型·ai大模型·vllm
放飞自我的Coder7 个月前
【linux 安装vllm=0.5.4】
linux·python·vllm