vllm的部署和使用

conda create -n cosyvoice python=3.10.9 cudnn=9.1.1.17 nvidia/label/cuda-12.1.1::cuda-toolkit ffmpeg x264

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

pip install vllm==0.6.6

pip install transformers==4.46 modelscope==1.20.1

qwen2.5模型下载

from modelscope import snapshot_download

Downloading model checkpoint to a local dir model_dir

model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct')

相关推荐
~kiss~8 天前
高性能大语言模型推理与服务框架(推理引擎)vLLM
人工智能·语言模型·vllm
hit56实验室8 天前
明明已经把vllm被强制kill了,但是仍然占用GPU显存
vllm
陈 洪 伟9 天前
大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力
vllm·mla
陈 洪 伟10 天前
大模型推理引擎vLLM(12): vLLM Prefix Caching以及eviction的相关问题和代码
vllm·prefix caching
深刻如此10 天前
Qwen2.5-7B-Instruct实战教程:Chainlit集成WebSocket实时通信增强
大语言模型·文本生成·vllm·chainlit
长路 ㅤ   11 天前
快速了解VLLM推理引擎
模型部署·vllm·xinference·推理引擎·ai框架
陈 洪 伟11 天前
大模型推理引擎vLLM(9): vLLM 基本代码结构
vllm
SmartBrain11 天前
技术总结:VLLM部署Qwen3模型的详解
开发语言·人工智能·算法·vllm
陈 洪 伟11 天前
大模型推理引擎vLLM(10): vLLM 分布式推理源码结构解析
分布式·vllm
鱼总美签13 天前
ClawdBot保姆级教学:解决Gateway not reachable错误的5种方法
ai助手·vllm·本地大模型·clawdbot