linux部署VLLM、大模型(详细图文)

一、安装vllm

创建虚拟环境(版本确保是3.8~3.11)

复制代码
conda create -n vllm_env python=3.10 -y

激活虚拟环境

复制代码
conda activate vllm_env

安装vllm

复制代码
pip install vllm

安装torch(用于深度学习的并行计算)

复制代码
 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

验证torch是否安装成功

复制代码
 python -c "import torch; print('PyTorch版本:', torch.__version__); print('CUDA版本:', torch.version.cuda); print('GPU可用:', torch.cuda.is_available())"

安装fast_attention(处理标准注意力在长序列场景下的内存爆炸IO 瓶颈问题)

复制代码
conda install -c conda-forge flash-attn=2.5.8

测试fast_attention是否安装成功

复制代码
nano test.py

在文件里粘贴这些代码

复制代码
# 验证 flash-attn 是否安装成功的测试脚本
import torch
from flash_attn import flash_attn_func

# 检查 GPU 是否可用
if not torch.cuda.is_available():
    print("❌ 未检测到 GPU,请确认 PyTorch CUDA 版本安装正确")
else:
    # 生成 fp16 精度的 Q/K/V 张量(适配 GPU)
    q = torch.randn(2, 1024, 16, 64, device="cuda", dtype=torch.float16)
    k = torch.randn(2, 1024, 16, 64, device="cuda", dtype=torch.float16)
    v = torch.randn(2, 1024, 16, 64, device="cuda", dtype=torch.float16)
    
    # 执行 flash-attn 计算
    try:
        out = flash_attn_func(q, k, v)
        print(f"✅ flash-attn 安装成功!输出 shape: {out.shape}")
    except Exception as e:
        print(f"❌ flash-attn 执行失败,错误信息:{e}")

执行文件

复制代码
python test.py

安装成功

删除py文件

复制代码
rm test.py

到此vllm安装完成

二、使用vllm部署大模型

先下载魔搭社区

复制代码
pip install modelscope

下载git工具

复制代码
git lfs install

git clone https://www.modelscope.cn/Qwen/Qwen1.5-1.8B.git

安装完成

如果不想要这个模型了,可以删除

复制代码
rm -rf ~/Qwen1.5-1.8B
相关推荐
清风lsq3 天前
大模型-vllm 自投机解码可行性分析
vllm·大模型推理
大模型推理3 天前
《Nano-vLLM 源码解读》第 12 篇 · ModelRunner:从 prompt 到 token(二)
vllm
清风lsq4 天前
大模型-解析vllm lora 模块
人工智能·vllm·大模型推理
大模型推理4 天前
《Nano-vLLM 源码解读》第 11 篇 · ModelRunner:从 prompt 到 token
vllm
zhangfeng11335 天前
vLLM + AWQ 是什么,为什么有算力架构要求 为什么v100默认不支持
人工智能·语言模型·显卡·vllm
SpikeKing6 天前
LLM - 支持 Hermes 智能体的 vLLM 部署 Qwen3.5 与 Qwen3.6 方案
llm·vllm·qwen3.5·hermes·qwen3.6
zhojiew6 天前
在Ray集群中使用vLLM部署LLM模型并集成Prometheus和Grafana进行指标观测的实践
grafana·prometheus·vllm
不吃天鹅肉6 天前
PaddleOCR-VL + vLLM 高性能推理实践:踩坑与调优全记录
人工智能·语言模型·svm·vllm
张忠琳6 天前
【vllm】(vllm kv_offload)vLLM V1 KV Offload—(二)核心业务逻辑逐行解析
ai·架构·vllm
张忠琳7 天前
【vllm】(v1 Attention)vLLM V1 Attention—Part1 架构总览与核心调度
ai·架构·vllm