文章目录
- [1. Vllm是什么?](#1. Vllm是什么?)
- [2. Page attention](#2. Page attention)
-
- 传统注意力的致命问题:
- 具体步骤:
- [Pageattenion 的优化:](#Pageattenion 的优化:)
- 总结:
- 3.连续批处理、
- [4. 前缀缓存](#4. 前缀缓存)
1. Vllm是什么?
vLLM 是 UC Berkeley 开发的高性能大模型推理引擎,核心原理是通过 PagedAttention (分页注意力) 革命性地管理 KV 缓存 ,并配合 连续批处理 等调度优化,实现极高的吞吐量和显存利用率。
内存革命:PagedAttention 彻底解决 KV Cache 碎片与浪费。
调度极致:连续批处理 让 GPU 永不停歇。
高效共享:前缀缓存 大幅降低重复计算与存储。
多卡扩展:原生支持张量并行,轻松跑 7B/13B/70B 模型。
2. Page attention
传统注意力的致命问题:
- 每个请求要预分配一大块连续显存
- 请求长短不一 → 大量空间闲置
- 显存碎片多 → 并发量极低
- 显存利用率只有 20%~40%
具体步骤:
- 分页(切小块)
把 KV 缓存切成固定大小的块(如 16 个 token 一块)不再需要整块连续显存。 - 块表映射(逻辑→物理)
用一个 ** 块表(Block Table)** 记录:
逻辑上连续的 token
物理上分散的块
注意力计算时自动按表寻址。 - 按需分配 + 即时回收
生成新 token → 申请新块
结束请求 → 释放块
内存零浪费、零碎片
Pageattenion 的优化:
- 不要求连续空间
- 用多少租多少
- 块可以散着放
- 显存利用率接近 100%
将大模型推理时的 KV 缓存 切分成固定大小的块(Block),实现非连续存储、按需分配、高效复用,彻底解决传统注意力机制中 显存碎片化、利用率低、无法高并发 的核心痛点。
总结:
借鉴操作系统虚拟内存思想,将 KV 缓存切分为固定大小的物理块,通过块表实现非连续存储与按需分配,彻底解决传统推理显存碎片化难题,大幅提升显存利用率与高并发推理吞吐量。
3.连续批处理、
举个简单例子:
传统批处理:等所有人做完才能一起交卷;
连续批处理:谁做完谁立刻走,空位马上补新人,GPU 永远满负荷干活。
传统调度策略:
一批请求必须同时开始、同时结束
长文本会拖住短文本,造成巨大等待
GPU 大量时间空转,利用率极低
并发上不去,延迟极高
vllm调度策略
- 以 Token 为单位迭代
不是按 "整个请求" 调度,而是每生成一个 Token 就做一次调度。 - 动态退出
某个请求生成完毕 → 立刻退出 → 释放显存与算力。 - 无缝插入
空出位置 → 等待队列中的请求立即补入。 - 无空闲、无等待
GPU 永远在计算,没有任何空转时间。
总结
采用 vLLM 连续批处理动态调度,以 Token 迭代为粒度实现请求的动态退出与无缝插入,打破传统静态批处理的队头阻塞问题,最大化 GPU 利用率,显著提升医疗场景高并发推理的吞吐量与响应速度。
4. 前缀缓存
举一个最直观的例子:
你的医疗模型所有请求都带固定开头:
你是专业医疗助手,请根据以下信息给出诊疗意见:
然后每个用户的问题不同。
传统推理:
3 个请求 → 计算 3 次前缀 KV → 存 3 份
vLLM 前缀缓存:
3 个请求 → 计算 1 次前缀 KV → 共享 1 份
省显存、提速、降时延
核心原理
相同前缀的 Block 只存一份
用引用计数管理共享块
采用 写时复制(Copy-on-Write)
前缀一样时:共享
前缀开始不一样时:自动复制一份,独立生成
完全透明,不影响模型输出
总结
基于 vLLM 前缀缓存(Prefix Sharing)技术,实现多请求间相同前缀序列的 KV 缓存共享,结合写时复制机制避免重复计算与显存冗余,大幅提升医疗场景高并发推理的吞吐量与显存利用率