vllm的部署和使用

conda create -n cosyvoice python=3.10.9 cudnn=9.1.1.17 nvidia/label/cuda-12.1.1::cuda-toolkit ffmpeg x264

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

pip install vllm==0.6.6

pip install transformers==4.46 modelscope==1.20.1

qwen2.5模型下载

from modelscope import snapshot_download

Downloading model checkpoint to a local dir model_dir

model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct')

相关推荐
HyperAI超神经9 天前
【vLLM 学习】Load Sharded State
llm·大语言模型·内存管理·vllm·推理加速·kv 缓存·中文文档
hlsilent17 天前
关于vllm【常见问题解决方案】
linux·经验分享·笔记·ai·大模型·llm·vllm
强哥之神1 个月前
深入解析 vLLM 分布式推理与部署策略
深度学习·语言模型·架构·llm·transformer·vllm
救救孩子把2 个月前
使用 uv 工具快速部署并管理 vLLM 推理环境
大模型·模型部署·uv·虚拟环境·vllm
小胡说人工智能3 个月前
深度剖析:Dify+Sanic+Vue+ECharts 搭建 Text2SQL 项目 sanic-web 的 Debug 实战
人工智能·python·llm·text2sql·dify·vllm·ollama
奔跑中的小象3 个月前
基于 nvitop+Prometheus+Grafana 的物理资源与 VLLM 引擎服务监控方案
grafana·prometheus·vllm·nvitop
为啥全要学3 个月前
vLLM部署Qwen2-7B模型推理
python·langchain·vllm
Nicolas8933 个月前
【大模型实战篇】华为信创环境采用vllm部署QwQ-32B模型
华为·信创·模型部署·昇腾·ascend·vllm·模型推理
engchina4 个月前
来自B站AIGC科技官的“vLLM简介“视频截图
人工智能·vllm
C7211BA4 个月前
为什么vllm能够加快大模型推理速度?
大语言模型·vllm