关于vLLM框架

文章目录

1. Vllm是什么?

vLLM 是 UC Berkeley 开发的高性能大模型推理引擎,核心原理是通过 PagedAttention (分页注意力) 革命性地管理 KV 缓存 ,并配合 连续批处理 等调度优化,实现极高的吞吐量和显存利用率。

内存革命:PagedAttention 彻底解决 KV Cache 碎片与浪费。

调度极致:连续批处理 让 GPU 永不停歇。

高效共享:前缀缓存 大幅降低重复计算与存储。

多卡扩展:原生支持张量并行,轻松跑 7B/13B/70B 模型。

2. Page attention

传统注意力的致命问题:

  • 每个请求要预分配一大块连续显存
  • 请求长短不一 → 大量空间闲置
  • 显存碎片多 → 并发量极低
  • 显存利用率只有 20%~40%

具体步骤:

  1. 分页(切小块)
    把 KV 缓存切成固定大小的块(如 16 个 token 一块)不再需要整块连续显存。
  2. 块表映射(逻辑→物理)
    用一个 ** 块表(Block Table)** 记录:
    逻辑上连续的 token
    物理上分散的块
    注意力计算时自动按表寻址。
  3. 按需分配 + 即时回收
    生成新 token → 申请新块
    结束请求 → 释放块
    内存零浪费、零碎片

Pageattenion 的优化:

  • 不要求连续空间
  • 用多少租多少
  • 块可以散着放
  • 显存利用率接近 100%

将大模型推理时的 KV 缓存 切分成固定大小的块(Block),实现非连续存储、按需分配、高效复用,彻底解决传统注意力机制中 显存碎片化、利用率低、无法高并发 的核心痛点。

总结:

借鉴操作系统虚拟内存思想,将 KV 缓存切分为固定大小的物理块,通过块表实现非连续存储与按需分配,彻底解决传统推理显存碎片化难题,大幅提升显存利用率与高并发推理吞吐量。

3.连续批处理、

举个简单例子:

传统批处理:等所有人做完才能一起交卷;

连续批处理:谁做完谁立刻走,空位马上补新人,GPU 永远满负荷干活。

传统调度策略:

一批请求必须同时开始、同时结束

长文本会拖住短文本,造成巨大等待

GPU 大量时间空转,利用率极低

并发上不去,延迟极高

vllm调度策略

  1. 以 Token 为单位迭代
    不是按 "整个请求" 调度,而是每生成一个 Token 就做一次调度。
  2. 动态退出
    某个请求生成完毕 → 立刻退出 → 释放显存与算力。
  3. 无缝插入
    空出位置 → 等待队列中的请求立即补入。
  4. 无空闲、无等待
    GPU 永远在计算,没有任何空转时间。

总结

采用 vLLM 连续批处理动态调度,以 Token 迭代为粒度实现请求的动态退出与无缝插入,打破传统静态批处理的队头阻塞问题,最大化 GPU 利用率,显著提升医疗场景高并发推理的吞吐量与响应速度。

4. 前缀缓存

举一个最直观的例子:

你的医疗模型所有请求都带固定开头:

复制代码
你是专业医疗助手,请根据以下信息给出诊疗意见:

然后每个用户的问题不同。

传统推理:

3 个请求 → 计算 3 次前缀 KV → 存 3 份

vLLM 前缀缓存:

3 个请求 → 计算 1 次前缀 KV → 共享 1 份

省显存、提速、降时延

核心原理

相同前缀的 Block 只存一份

用引用计数管理共享块

采用 写时复制(Copy-on-Write)

前缀一样时:共享

前缀开始不一样时:自动复制一份,独立生成

完全透明,不影响模型输出

总结

基于 vLLM 前缀缓存(Prefix Sharing)技术,实现多请求间相同前缀序列的 KV 缓存共享,结合写时复制机制避免重复计算与显存冗余,大幅提升医疗场景高并发推理的吞吐量与显存利用率

相关推荐
AI小百科6 天前
llama.cpp vs vLLM:深度解析与选型指南
llama·vllm
IRevers6 天前
【大模型】Gemma4在ROCm和vLLM部署
人工智能·pytorch·深度学习·大模型·datawhale·vllm·amdev
下班走回家7 天前
本地部署大模型的三种方式:Ollama vs vLLM vs llama.cpp
人工智能·llama·vllm
花间相见7 天前
【大模型部署01】—— vLLM 部署大模型服务实操:从 0 到 1 搭建 OpenAI 兼容 API
vllm
有来有去95277 天前
【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架
人工智能·深度学习·语言模型·gpu算力·vllm
安如衫8 天前
【Hello-ROCm】vLLM 跑通 Gemma4-E4B
datawhale·vllm·amdev
毒爪的小新8 天前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
像风一样自由20209 天前
17.推理框架横评:vLLM / TGI / TensorRT-LLM / SGLang 全面对比
人工智能·大模型·vllm·sglang
rebibabo9 天前
KV Cache 与 PagedAttention 详解:理论推导 + RTX 3090 实测数据
人工智能·vllm·推理加速·大模型部署·kvcache