关于vLLM框架

文章目录

1. Vllm是什么?

vLLM 是 UC Berkeley 开发的高性能大模型推理引擎,核心原理是通过 PagedAttention (分页注意力) 革命性地管理 KV 缓存 ,并配合 连续批处理 等调度优化,实现极高的吞吐量和显存利用率。

内存革命:PagedAttention 彻底解决 KV Cache 碎片与浪费。

调度极致:连续批处理 让 GPU 永不停歇。

高效共享:前缀缓存 大幅降低重复计算与存储。

多卡扩展:原生支持张量并行,轻松跑 7B/13B/70B 模型。

2. Page attention

传统注意力的致命问题:

  • 每个请求要预分配一大块连续显存
  • 请求长短不一 → 大量空间闲置
  • 显存碎片多 → 并发量极低
  • 显存利用率只有 20%~40%

具体步骤:

  1. 分页(切小块)
    把 KV 缓存切成固定大小的块(如 16 个 token 一块)不再需要整块连续显存。
  2. 块表映射(逻辑→物理)
    用一个 ** 块表(Block Table)** 记录:
    逻辑上连续的 token
    物理上分散的块
    注意力计算时自动按表寻址。
  3. 按需分配 + 即时回收
    生成新 token → 申请新块
    结束请求 → 释放块
    内存零浪费、零碎片

Pageattenion 的优化:

  • 不要求连续空间
  • 用多少租多少
  • 块可以散着放
  • 显存利用率接近 100%

将大模型推理时的 KV 缓存 切分成固定大小的块(Block),实现非连续存储、按需分配、高效复用,彻底解决传统注意力机制中 显存碎片化、利用率低、无法高并发 的核心痛点。

总结:

借鉴操作系统虚拟内存思想,将 KV 缓存切分为固定大小的物理块,通过块表实现非连续存储与按需分配,彻底解决传统推理显存碎片化难题,大幅提升显存利用率与高并发推理吞吐量。

3.连续批处理、

举个简单例子:

传统批处理:等所有人做完才能一起交卷;

连续批处理:谁做完谁立刻走,空位马上补新人,GPU 永远满负荷干活。

传统调度策略:

一批请求必须同时开始、同时结束

长文本会拖住短文本,造成巨大等待

GPU 大量时间空转,利用率极低

并发上不去,延迟极高

vllm调度策略

  1. 以 Token 为单位迭代
    不是按 "整个请求" 调度,而是每生成一个 Token 就做一次调度。
  2. 动态退出
    某个请求生成完毕 → 立刻退出 → 释放显存与算力。
  3. 无缝插入
    空出位置 → 等待队列中的请求立即补入。
  4. 无空闲、无等待
    GPU 永远在计算,没有任何空转时间。

总结

采用 vLLM 连续批处理动态调度,以 Token 迭代为粒度实现请求的动态退出与无缝插入,打破传统静态批处理的队头阻塞问题,最大化 GPU 利用率,显著提升医疗场景高并发推理的吞吐量与响应速度。

4. 前缀缓存

举一个最直观的例子:

你的医疗模型所有请求都带固定开头:

复制代码
你是专业医疗助手,请根据以下信息给出诊疗意见:

然后每个用户的问题不同。

传统推理:

3 个请求 → 计算 3 次前缀 KV → 存 3 份

vLLM 前缀缓存:

3 个请求 → 计算 1 次前缀 KV → 共享 1 份

省显存、提速、降时延

核心原理

相同前缀的 Block 只存一份

用引用计数管理共享块

采用 写时复制(Copy-on-Write)

前缀一样时:共享

前缀开始不一样时:自动复制一份,独立生成

完全透明,不影响模型输出

总结

基于 vLLM 前缀缓存(Prefix Sharing)技术,实现多请求间相同前缀序列的 KV 缓存共享,结合写时复制机制避免重复计算与显存冗余,大幅提升医疗场景高并发推理的吞吐量与显存利用率

相关推荐
是Dream呀7 天前
从零到一:Triton实现CELU激活函数优化之路
ai·vllm·openclaw
花间相见7 天前
【大模型推理01】—— 初探VLLM:高性能LLM推理引擎,让开源模型跑起来更快更省
开源·vllm
Flying pigs~~8 天前
大模型训练框架 ➕ 推理部署框架
模型训练·deepspeed·vllm·模型推理·zero·pageattention
AI木马人8 天前
2.人工智能实战:大模型接口并发低、GPU利用率上不去?基于 vLLM 重构推理服务的完整工程方案
人工智能·transformer·vllm
AIDF202611 天前
我们看一份报告的时候主要看什么
运维·服务器·推理·vllm
张忠琳11 天前
【vllm】(八)vLLM v1 Simple KV Offload — 系统级架构深度分析之二
ai·架构·vllm
一只独角兽12 天前
DeepSeek-V4-Pro 部署实战指南:H100/H200/B200/B300/GB200/GB300 全硬件配置详解
自然语言处理·gru·transformer·vllm
张忠琳12 天前
【vllm】(六)vLLM v1 Sample — 模块超深度分析之一
ai·架构·vllm
蛐蛐蛐12 天前
在昇腾Atlas 300I Duo+openEuler上部署vLLM并进行推理的流程(一)
vllm