参考:https://github.com/vllm-project/vllm/issues/39749
标签 :rocm(与AMD ROCm相关)
描述:2026年4月13日,由benchislett编辑
在#32455中,我们将vLLM的目标拆解为多个专项兴趣小组(SIG)。以下是各SIG负责领域及路线图,小组例会可查看此公开日历。
核心引擎(Core)
Slack频道:#sig-core
成员:@WoosukKwon、@njhill
团队负责vLLM引擎核心,包括调度器、KV缓存管理器、分布式、模型运行器、KV连接器代码路径。
-
模型运行器V2(Model Runner V2)加固并设为默认:
-
扩大测试覆盖范围
-
开箱支持宽专家并行(wide-ep)
-
-
持续完善模型运行器V2设计文档;第二季度保留MRV1以处理长尾场景,同时为MRV2拓展更多场景
-
针对复杂KV缓存布局重新设计KV缓存管理器
-
卸载能力:CPU卸载+磁盘卸载+该路径的完整连接器API
-
解决已知调度器问题(避免过度抢占、预填充队头阻塞)
-
进一步加固/简化进程管理
-
完成自动调优/开箱即用性能优化
大规模服务(Large Scale Serving)
Slack频道:#sig-large-scale-serving
项目面板:Large-Scale Serving
成员:@tlrmchlsmth
团队致力于在GB200、B200、H200集群的解耦、宽专家并行、弹性部署场景下,将vLLM性能推至极致;同时负责与llm-d、Dynamo、AMD团队等生态项目对接。
-
零开销异步专家并行负载均衡(EPLB)
-
实验性容错专家并行(EP)
-
弹性专家并行(扩缩容)达到生产可用
-
双向KV传输
-
数值监控/调试工具
-
征集实验/原型:
-
实验性自适应流量分发(AFD)
-
流水线并行优化?
-
模型性能(Model Performance)
频道:#sig-model-performance
成员:@robertgshaw2-redhat、@simon-mo
团队专注vLLM纯性能与可靠性工程,包括采集性能轨迹、默认启用合适内核、持续监控,同时覆盖生产稳定性的监控与日志。
-
硬件集群上重点模型的每日性能评估
-
模型:Kimi K2.5、通义千问3.5、DeepSeek V3.2、Minimax 2.7、GLM 5.1
-
硬件:GB200、B300、H200(可能包含MI355)
-
负载:InferenceX、自底向上负载(批量大小1、16等)
-
-
每周同步性能缺口进展与轨迹分享
-
每日精度扫描确保开启性能优化后无精度退化
量化(Quantization)
会议时间/链接:每周例会
频道:#sig-quantization
成员:@mgoin、@dsikka
负责vLLM量化支持,包括原生在线量化、LLM Compressor、ModelOpt等外部集成。
-
完成vLLM在线量化重构,使其更灵活、更省内存,适配生产/强化学习负载
-
以INT8逐token动态KV缓存量化为基础,为后续FP8、NVFP4等动态KV缓存压缩铺路
-
实现单一可信源调度规则、显式后端能力检查、更清晰的不支持配置报错,让量化后端调度可确定、可检视、易维护
-
研究并集成高效变换/旋转算法,提升低位量化精度(尤其MXFP4与注意力投影等敏感层)
-
继续优化强化学习权重重载,进一步降低内存占用,支持已量化/重排权重的重载
-
拓展W{1-8}A{16/8/4}更宽位宽内核支持,包括集成humming-kernel
speculative解码(Speculative Decoding)
会议时间/链接:每周例会
频道:#sig-spec-decode、#speculators
成员:@benchislett、@fynnsu、@mgoin
目标:偿还V1版speculative解码的技术债,加固生产级功能,优化大规模高吞吐、极致低延迟推测场景,完善Speculators训练流程。
-
支持并扩容Speculators
-
在Hugging Face发布所有前沿模型的推测器
-
隐藏状态提取------基础支持
-
隐藏状态提取------高级支持(优化单节点、高效多节点连接器)
-
可扩展推测器接口
-
ModelRunnerV2原生支持多种推测后端
-
可组合推测(如混合n-gram-EAGLE推测)
-
加固speculative解码
-
扩大EAGLE、DFlash、MTP的端到端覆盖
-
强化学习与大规模服务的优化、修复与测试
-
全并发区间的推测优化
-
草稿生成完整支持CUDA Graph
-
草稿生成扩大注意力后端支持与细粒度选择
-
基于批量大小的动态推测
-
批内异构推测的优化注意力内核
Torch编译(Torch Compile)
频道:#sig-torch-compile
成员:@ProExpertProg、@zou3519
通过PyTorch编译集成提升性能、可移植性与研发效率,包括自定义编译与融合通道、内核注册用vLLM中间表示、缓存缩短编译时间、优化torch.compile用户体验、联合开发新特性。
-
整体提升torch.compile编译速度
-
目标:冷编译速度最高提升1.3倍(搭配PyTorch 2.12)
-
热编译时间降至≤2秒(最高提速5倍,搭配PyTorch 2.12)
-
新增权重加载与编译重叠选项(第二季度非稳定,第三季度稳定)
-
完成vLLM中间表示全量迁移
-
上线优化性能面板,追踪编译提速与冷热启动耗时拆分
-
vLLM默认启用至少1个自定义helion内核
-
支持torch.compile×CUDA流(PyTorch 2.12)
-
支持torch.compile×NV对称内存集成(PyTorch 2.12)
-
解封装自定义算子(MLA、混合专家融合),向Inductor与自定义优化通道暴露更多算子
-
持续默认启用更多优化(Inductor分区、注意力+量化融合、异步张量并行)
-
约1/4的vLLM多模态模型支持编码器编译
-
推动开源社区对齐有界→无界形状迁移方案,让X+模型默认使用无界形状
-
Inductor原生生成更多融合(含填充/量化/集合通信融合,PyTorch 2.12)
-
按需上线Inductor PDL并优化实现
强化学习(RL)
频道:#sig-post-training
团队为强化学习推理提供最优引擎特性,包括权重同步、KV缓存重置、易用修改。
-
完成模块化权重同步里程碑3 [RFC]:原生权重同步API #31848
-
优化并协同开源强化学习训练流程
-
加固外部启动模式
多模态与全模态(MultiModality & Omni Modality)
频道:#sig-multi-modality
成员:@ywang96、@DarkLight1337
支持多模态输入的抽象、模型适配与优化。
-
扩大ViT的CUDA Graph+torch编译测试覆盖
-
默认启用MLPerf冲刺中的编码器优化(可用时)
-
让API更灵活、减少抽象层
-
vLLM-Omni侧:
-
大规模服务支持"PD",各阶段可初始化不同副本数
-
服务vLLM-Omni大规模用户
-
持续集成、构建与发布(CI, Build, and Release)
频道:#sig-ci
成员:@khluu
打造世界级vLLM持续集成基础设施,保障安全可靠的构建与发布流程。
-
告警响应时间→30分钟
-
热门模型×硬件矩阵的模型评估覆盖
-
自动测试目标判定
-
优化每日PyTorch版本的测试信号
-
扩大AMD测试覆盖
-
完善发布门禁信号,超越仅构建与测试通过
-
所有非软失败的CI测试
-
将端到端集成测试拆分至长时发布测试套件
-
模型评估
-
性能基准回归测试
-