[推理]vLLM-2026年第二季度路线图

参考：https://github.com/vllm-project/vllm/issues/39749

标签：rocm（与AMD ROCm相关）
描述：2026年4月13日，由benchislett编辑

在#32455中，我们将vLLM的目标拆解为多个专项兴趣小组（SIG）。以下是各SIG负责领域及路线图，小组例会可查看此公开日历。

核心引擎（Core）

Slack频道：#sig-core

成员：@WoosukKwon、@njhill

团队负责vLLM引擎核心，包括调度器、KV缓存管理器、分布式、模型运行器、KV连接器代码路径。

模型运行器V2（Model Runner V2）加固并设为默认：
- 扩大测试覆盖范围
- 开箱支持宽专家并行（wide-ep）
持续完善模型运行器V2设计文档；第二季度保留MRV1以处理长尾场景，同时为MRV2拓展更多场景
针对复杂KV缓存布局重新设计KV缓存管理器
卸载能力：CPU卸载+磁盘卸载+该路径的完整连接器API
解决已知调度器问题（避免过度抢占、预填充队头阻塞）
进一步加固/简化进程管理
完成自动调优/开箱即用性能优化

大规模服务（Large Scale Serving）

Slack频道：#sig-large-scale-serving

项目面板：Large-Scale Serving

成员：@tlrmchlsmth

团队致力于在GB200、B200、H200集群的解耦、宽专家并行、弹性部署场景下，将vLLM性能推至极致；同时负责与llm-d、Dynamo、AMD团队等生态项目对接。

零开销异步专家并行负载均衡（EPLB）
实验性容错专家并行（EP）
弹性专家并行（扩缩容）达到生产可用
双向KV传输
数值监控/调试工具
征集实验/原型：
- 实验性自适应流量分发（AFD）
- 流水线并行优化？

模型性能（Model Performance）

频道：#sig-model-performance

成员：@robertgshaw2-redhat、@simon-mo

团队专注vLLM纯性能与可靠性工程，包括采集性能轨迹、默认启用合适内核、持续监控，同时覆盖生产稳定性的监控与日志。

硬件集群上重点模型的每日性能评估
- 模型：Kimi K2.5、通义千问3.5、DeepSeek V3.2、Minimax 2.7、GLM 5.1
- 硬件：GB200、B300、H200（可能包含MI355）
- 负载：InferenceX、自底向上负载（批量大小1、16等）
每周同步性能缺口进展与轨迹分享
每日精度扫描确保开启性能优化后无精度退化

量化（Quantization）

会议时间/链接：每周例会

频道：#sig-quantization

成员：@mgoin、@dsikka

负责vLLM量化支持，包括原生在线量化、LLM Compressor、ModelOpt等外部集成。

完成vLLM在线量化重构，使其更灵活、更省内存，适配生产/强化学习负载
以INT8逐token动态KV缓存量化为基础，为后续FP8、NVFP4等动态KV缓存压缩铺路
实现单一可信源调度规则、显式后端能力检查、更清晰的不支持配置报错，让量化后端调度可确定、可检视、易维护
研究并集成高效变换/旋转算法，提升低位量化精度（尤其MXFP4与注意力投影等敏感层）
继续优化强化学习权重重载，进一步降低内存占用，支持已量化/重排权重的重载
拓展W{1-8}A{16/8/4}更宽位宽内核支持，包括集成humming-kernel

speculative解码（Speculative Decoding）

会议时间/链接：每周例会

频道：#sig-spec-decode、#speculators

成员：@benchislett、@fynnsu、@mgoin

目标：偿还V1版speculative解码的技术债，加固生产级功能，优化大规模高吞吐、极致低延迟推测场景，完善Speculators训练流程。

支持并扩容Speculators
在Hugging Face发布所有前沿模型的推测器
隐藏状态提取------基础支持
隐藏状态提取------高级支持（优化单节点、高效多节点连接器）
可扩展推测器接口
ModelRunnerV2原生支持多种推测后端
可组合推测（如混合n-gram-EAGLE推测）
加固speculative解码
扩大EAGLE、DFlash、MTP的端到端覆盖
强化学习与大规模服务的优化、修复与测试
全并发区间的推测优化
草稿生成完整支持CUDA Graph
草稿生成扩大注意力后端支持与细粒度选择
基于批量大小的动态推测
批内异构推测的优化注意力内核

Torch编译（Torch Compile）

频道：#sig-torch-compile

成员：@ProExpertProg、@zou3519

通过PyTorch编译集成提升性能、可移植性与研发效率，包括自定义编译与融合通道、内核注册用vLLM中间表示、缓存缩短编译时间、优化torch.compile用户体验、联合开发新特性。

整体提升torch.compile编译速度
目标：冷编译速度最高提升1.3倍（搭配PyTorch 2.12）
热编译时间降至≤2秒（最高提速5倍，搭配PyTorch 2.12）
新增权重加载与编译重叠选项（第二季度非稳定，第三季度稳定）
完成vLLM中间表示全量迁移
上线优化性能面板，追踪编译提速与冷热启动耗时拆分
vLLM默认启用至少1个自定义helion内核
支持torch.compile×CUDA流（PyTorch 2.12）
支持torch.compile×NV对称内存集成（PyTorch 2.12）
解封装自定义算子（MLA、混合专家融合），向Inductor与自定义优化通道暴露更多算子
持续默认启用更多优化（Inductor分区、注意力+量化融合、异步张量并行）
约1/4的vLLM多模态模型支持编码器编译
推动开源社区对齐有界→无界形状迁移方案，让X+模型默认使用无界形状
Inductor原生生成更多融合（含填充/量化/集合通信融合，PyTorch 2.12）
按需上线Inductor PDL并优化实现

强化学习（RL）

频道：#sig-post-training

团队为强化学习推理提供最优引擎特性，包括权重同步、KV缓存重置、易用修改。

完成模块化权重同步里程碑3 [RFC]：原生权重同步API #31848
优化并协同开源强化学习训练流程
加固外部启动模式

多模态与全模态（MultiModality & Omni Modality）

频道：#sig-multi-modality

成员：@ywang96、@DarkLight1337

支持多模态输入的抽象、模型适配与优化。

扩大ViT的CUDA Graph+torch编译测试覆盖
默认启用MLPerf冲刺中的编码器优化（可用时）
让API更灵活、减少抽象层
vLLM-Omni侧：
- 大规模服务支持"PD"，各阶段可初始化不同副本数
- 服务vLLM-Omni大规模用户

持续集成、构建与发布（CI, Build, and Release）

频道：#sig-ci

成员：@khluu

打造世界级vLLM持续集成基础设施，保障安全可靠的构建与发布流程。

告警响应时间→30分钟
热门模型×硬件矩阵的模型评估覆盖
自动测试目标判定
优化每日PyTorch版本的测试信号
扩大AMD测试覆盖
完善发布门禁信号，超越仅构建与测试通过
- 所有非软失败的CI测试
- 将端到端集成测试拆分至长时发布测试套件
- 模型评估
- 性能基准回归测试