[推理]vLLM-2026年第二季度路线图

参考:https://github.com/vllm-project/vllm/issues/39749

标签 :rocm(与AMD ROCm相关)
描述:2026年4月13日,由benchislett编辑

在#32455中,我们将vLLM的目标拆解为多个专项兴趣小组(SIG)。以下是各SIG负责领域及路线图,小组例会可查看此公开日历。


核心引擎(Core)

Slack频道:#sig-core

成员:@WoosukKwon、@njhill

团队负责vLLM引擎核心,包括调度器、KV缓存管理器、分布式、模型运行器、KV连接器代码路径。

  • 模型运行器V2(Model Runner V2)加固并设为默认:

    • 扩大测试覆盖范围

    • 开箱支持宽专家并行(wide-ep)

  • 持续完善模型运行器V2设计文档;第二季度保留MRV1以处理长尾场景,同时为MRV2拓展更多场景

  • 针对复杂KV缓存布局重新设计KV缓存管理器

  • 卸载能力:CPU卸载+磁盘卸载+该路径的完整连接器API

  • 解决已知调度器问题(避免过度抢占、预填充队头阻塞)

  • 进一步加固/简化进程管理

  • 完成自动调优/开箱即用性能优化


大规模服务(Large Scale Serving)

Slack频道:#sig-large-scale-serving

项目面板:Large-Scale Serving

成员:@tlrmchlsmth

团队致力于在GB200、B200、H200集群的解耦、宽专家并行、弹性部署场景下,将vLLM性能推至极致;同时负责与llm-d、Dynamo、AMD团队等生态项目对接。

  • 零开销异步专家并行负载均衡(EPLB)

  • 实验性容错专家并行(EP)

  • 弹性专家并行(扩缩容)达到生产可用

  • 双向KV传输

  • 数值监控/调试工具

  • 征集实验/原型:

    • 实验性自适应流量分发(AFD)

    • 流水线并行优化?


模型性能(Model Performance)

频道:#sig-model-performance

成员:@robertgshaw2-redhat、@simon-mo

团队专注vLLM纯性能与可靠性工程,包括采集性能轨迹、默认启用合适内核、持续监控,同时覆盖生产稳定性的监控与日志。

  • 硬件集群上重点模型的每日性能评估

    • 模型:Kimi K2.5、通义千问3.5、DeepSeek V3.2、Minimax 2.7、GLM 5.1

    • 硬件:GB200、B300、H200(可能包含MI355)

    • 负载:InferenceX、自底向上负载(批量大小1、16等)

  • 每周同步性能缺口进展与轨迹分享

  • 每日精度扫描确保开启性能优化后无精度退化


量化(Quantization)

会议时间/链接:每周例会

频道:#sig-quantization

成员:@mgoin、@dsikka

负责vLLM量化支持,包括原生在线量化、LLM Compressor、ModelOpt等外部集成。

  • 完成vLLM在线量化重构,使其更灵活、更省内存,适配生产/强化学习负载

  • 以INT8逐token动态KV缓存量化为基础,为后续FP8、NVFP4等动态KV缓存压缩铺路

  • 实现单一可信源调度规则、显式后端能力检查、更清晰的不支持配置报错,让量化后端调度可确定、可检视、易维护

  • 研究并集成高效变换/旋转算法,提升低位量化精度(尤其MXFP4与注意力投影等敏感层)

  • 继续优化强化学习权重重载,进一步降低内存占用,支持已量化/重排权重的重载

  • 拓展W{1-8}A{16/8/4}更宽位宽内核支持,包括集成humming-kernel


speculative解码(Speculative Decoding)

会议时间/链接:每周例会

频道:#sig-spec-decode、#speculators

成员:@benchislett、@fynnsu、@mgoin

目标:偿还V1版speculative解码的技术债,加固生产级功能,优化大规模高吞吐、极致低延迟推测场景,完善Speculators训练流程。

  • 支持并扩容Speculators

  • 在Hugging Face发布所有前沿模型的推测器

  • 隐藏状态提取------基础支持

  • 隐藏状态提取------高级支持(优化单节点、高效多节点连接器)

  • 可扩展推测器接口

  • ModelRunnerV2原生支持多种推测后端

  • 可组合推测(如混合n-gram-EAGLE推测)

  • 加固speculative解码

  • 扩大EAGLE、DFlash、MTP的端到端覆盖

  • 强化学习与大规模服务的优化、修复与测试

  • 全并发区间的推测优化

  • 草稿生成完整支持CUDA Graph

  • 草稿生成扩大注意力后端支持与细粒度选择

  • 基于批量大小的动态推测

  • 批内异构推测的优化注意力内核


Torch编译(Torch Compile)

频道:#sig-torch-compile

成员:@ProExpertProg、@zou3519

通过PyTorch编译集成提升性能、可移植性与研发效率,包括自定义编译与融合通道、内核注册用vLLM中间表示、缓存缩短编译时间、优化torch.compile用户体验、联合开发新特性。

  • 整体提升torch.compile编译速度

  • 目标:冷编译速度最高提升1.3倍(搭配PyTorch 2.12)

  • 热编译时间降至≤2秒(最高提速5倍,搭配PyTorch 2.12)

  • 新增权重加载与编译重叠选项(第二季度非稳定,第三季度稳定)

  • 完成vLLM中间表示全量迁移

  • 上线优化性能面板,追踪编译提速与冷热启动耗时拆分

  • vLLM默认启用至少1个自定义helion内核

  • 支持torch.compile×CUDA流(PyTorch 2.12)

  • 支持torch.compile×NV对称内存集成(PyTorch 2.12)

  • 解封装自定义算子(MLA、混合专家融合),向Inductor与自定义优化通道暴露更多算子

  • 持续默认启用更多优化(Inductor分区、注意力+量化融合、异步张量并行)

  • 约1/4的vLLM多模态模型支持编码器编译

  • 推动开源社区对齐有界→无界形状迁移方案,让X+模型默认使用无界形状

  • Inductor原生生成更多融合(含填充/量化/集合通信融合,PyTorch 2.12)

  • 按需上线Inductor PDL并优化实现


强化学习(RL)

频道:#sig-post-training

团队为强化学习推理提供最优引擎特性,包括权重同步、KV缓存重置、易用修改。

  • 完成模块化权重同步里程碑3 [RFC]:原生权重同步API #31848

  • 优化并协同开源强化学习训练流程

  • 加固外部启动模式


多模态与全模态(MultiModality & Omni Modality)

频道:#sig-multi-modality

成员:@ywang96、@DarkLight1337

支持多模态输入的抽象、模型适配与优化。

  • 扩大ViT的CUDA Graph+torch编译测试覆盖

  • 默认启用MLPerf冲刺中的编码器优化(可用时)

  • 让API更灵活、减少抽象层

  • vLLM-Omni侧:

    • 大规模服务支持"PD",各阶段可初始化不同副本数

    • 服务vLLM-Omni大规模用户


持续集成、构建与发布(CI, Build, and Release)

频道:#sig-ci

成员:@khluu

打造世界级vLLM持续集成基础设施,保障安全可靠的构建与发布流程。

  • 告警响应时间→30分钟

  • 热门模型×硬件矩阵的模型评估覆盖

  • 自动测试目标判定

  • 优化每日PyTorch版本的测试信号

  • 扩大AMD测试覆盖

  • 完善发布门禁信号,超越仅构建与测试通过

    • 所有非软失败的CI测试

    • 将端到端集成测试拆分至长时发布测试套件

    • 模型评估

    • 性能基准回归测试

相关推荐
自动驾驶小学生2 小时前
Transformer和LLM前沿内容(4):Long-Context LLM
人工智能·深度学习·transformer
Rick19932 小时前
LangChain(含 LangChain4j)和 Spring AI的区别
人工智能·spring·langchain
java1234_小锋2 小时前
Spring AI 2.0 开发Java Agent智能体 - Spring AI 2.0简介
java·人工智能·spring·spring ai
Jun6262 小时前
【树莓派】opencv水滴接触角测量
人工智能·opencv·计算机视觉
zhangfeng11332 小时前
No space left on device (28) llamafactory微调训练的时候 报错,需要调节 dataloader_num_workers
人工智能·语言模型·llama
流年似水~2 小时前
iOS 开发进阶之路:从能跑到能维护
人工智能·程序人生·ios·语言模型
QuestLab2 小时前
【第23期】2026年4月26日 AI日报
人工智能
AIminminHu2 小时前
((AI篇)OpenGL渲染与几何内核那点事-(二-1-(10):从“搜个大概”到“读懂图纸”:一个 CAD 开发者眼中的 RAG 进化简史)
人工智能·agent·opengl·智能体
SmartBrain2 小时前
AI技术演进与实战路径洞察
人工智能·架构·aigc