vllm的部署和使用

conda create -n cosyvoice python=3.10.9 cudnn=9.1.1.17 nvidia/label/cuda-12.1.1::cuda-toolkit ffmpeg x264

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

pip install vllm==0.6.6

pip install transformers==4.46 modelscope==1.20.1

qwen2.5模型下载

from modelscope import snapshot_download

Downloading model checkpoint to a local dir model_dir

model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct')

model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct')

相关推荐
Stara05114 天前
DeepSeek-OCR私有化部署—从零构建OCR服务环境
计算机视觉·docker·ocr·transformers·vllm·deepseek·光学符号识别
破烂pan6 天前
主流 LLM 推理/部署框架指标对比
llm·模型部署·vllm
skywalk816314 天前
老显卡老cpu用vllm推理大模型失败Intel(R) Xeon(R) CPU E5-2643 v2
人工智能·pytorch·python·vllm
远上寒山19 天前
DeepSeek-OCR 论文精读与实践:用“光学上下文压缩”把长文本变成图片,再由 VLM 高效还原
ocr·vllm·文档解析·deepseek·deepseek-ocr·视觉-文本压缩
weixin_4380774924 天前
windows10安装WSL2 & ubuntu24.04中安装vLLM & vLLM中部署Qwen2.5-VL
llm·vllm·qwen2.5-vl
hu_nil24 天前
LLMOps-第十一周作业
python·vllm
deephub25 天前
vLLM 性能优化实战:批处理、量化与缓存配置方案
人工智能·python·大语言模型·1024程序员节·vllm
九章云极AladdinEdu1 个月前
大模型推理服务优化:vLLM的PagedAttention与连续批处理实现
vllm·kv缓存·推理优化·pagedattention·连续批处理·吞吐量对比
羊城迷鹿1 个月前
华为昇腾NPU驱动问题排查与vLLM部署踩坑记录
昇腾·npu·vllm
MonkeyKing_sunyuhua1 个月前
怎么计算vllm启动大模型的并发数
vllm