Nano-vLLM-MS:基于 nano-vLLM ,支持 MoE 模型和 Speculative Decoding

Nano-vLLM-MS

项目地址

这是一个基于 nano-vLLM 的轻量级 vLLM 实现,增强了对 MoE 模型和 Speculative Decoding(推测解码)的支持。

核心特性

  • MoE 模型支持 - 在 nano-vLLM 推理流水线中支持 Qwen3-MoE 模型,包含基于 router 的 top-k expert 选择与融合专家计算。
  • Speculative Decoding 流水线 - 实现了端到端的推测解码路径,包含 N-gram 草稿 token 提案。
  • 🚀 高效 N-gram proposer - 使用基于 prompt 查找的方法,并结合 Numba 加速与自适应线程控制,降低大 batch 场景下的草稿生成开销。
  • 面向性能的运行时 - 保留了 nano-vLLM 的优化能力,例如 prefix cache、tensor parallel、CUDA graph capture 等。
  • 📊 可复现示例与基准测试 - 提供 example_moe.pyexample_sd.pybench.py,可快速验证功能并与 vLLM 对比吞吐。

安装

arduino 复制代码
pip install git+https://github.com/banfeb/nano-vLLM-MS2.git

模型下载

如果你想手动下载模型权重,可使用以下命令:

perl 复制代码
huggingface-cli download --resume-download yujiepan/qwen3-moe-tiny-random \
  --local-dir ~/huggingface/qwen3-moe-tiny-random/ \
  --local-dir-use-symlinks False

快速开始

使用方式可参考 example_moe.pyexample_sd.py。API 基本与 vLLM 接口一致,LLM.generate 方法有少量差异:

ini 复制代码
from nanovllm import LLM, SamplingParams
llm = LLM("/YOUR/MODEL/PATH", enforce_eager=True, tensor_parallel_size=1,speculative_config={})
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)
prompts = ["Hello, Nano-vLLM-MS."]
outputs = llm.generate(prompts, sampling_params)
outputs[0]["text"]

基准测试

基准测试请参考 bench.py

下面给出两组基准测试结果:

  1. 用于验证 Qwen3-MoE 执行路径的 MoE 推理基准测试。
  2. 基于 Qwen3-0.6B 的 Speculative Decoding 基准测试,用于衡量 N-gram 草稿生成流水线带来的吞吐提升。

MoE 推理基准测试

这组测试数据来自 MoE 模型路径,不包含 Speculative Decoding。所使用的 Qwen3-MoE 模型是一个随机参数 checkpoint,因此这里的测试主要用于功能验证与吞吐评估,而不是生成质量评估。

测试配置:

  • 硬件:RTX 3090(24GB)
  • 模型:yujiepan/qwen3-moe-tiny-random
  • 总请求数:256 条序列
  • 输入长度:在 100 到 1024 token 范围内随机采样
  • 输出长度:在 100 到 1024 token 范围内随机采样

性能结果:

推理引擎 输出 Token 数 耗时(s) 吞吐(tokens/s)
vLLM 133,966 5.53 24,242.19
Nano-vLLM-MS 133,966 6.37 23,214.07

Speculative Decoding 基准测试

为了评估 Speculative Decoding 的效果,我们另外在 Qwen3-0.6B 上测试了 Nano-vLLM-MS。该模型也是当前 speculative decoding 示例所使用的基础稠密模型。这里对比的是普通解码与开启 N-gram speculative path 后的吞吐表现。

测试配置:

  • 模型:Qwen3-0.6B
  • 推理引擎:Nano-vLLM-MS
  • 对比方式:普通解码 vs. Speculative Decoding

性能结果:

模式 吞吐(tokens/s)
普通解码 1,418.09
Speculative Decoding 1,996.81

在该配置下,Speculative Decoding 将吞吐从 1418.09 tok/s 提升到 1996.81 tok/s,约提升 40.8%

相关推荐
冬奇Lab2 小时前
每日一个开源项目(第126篇):turbovec - 向量索引的内存杀手,1千万文档从31GB压到4GB
人工智能·开源·llm
冬奇Lab2 小时前
Agent 系列(17):Harness Engineering——给自主 Agent 装上安全护栏
人工智能·llm·agent
MELF晓宇7 小时前
多模态向量对齐:从 Embedding 到多模态大模型
llm·agent
龙骑士baby8 小时前
重建 AI 认知第 4 篇:Skill——提示词的系统化封装
ai·大模型·llm·prompt·skill
装不满的克莱因瓶10 小时前
深入PyTorch模型的训练与可视化 —— 掌握迁移学习等模型训练效果提升的办法
人工智能·pytorch·python·深度学习·神经网络·ai·迁移学习
The moon forgets10 小时前
ABot-M0:基于动作流形学习的机器人操作VLA基础模型深度解析
人工智能·pytorch·python·学习·具身智能·vla·点云分割
爱听歌的周童鞋12 小时前
Learn-Claude-Code | 笔记 | Multi-Agent Platform | s20_new Comprehensive Agent
llm·agent·multi-agent·claude code·comprehensive
Kobebryant-Manba13 小时前
学习参数管理
pytorch·python·深度学习
m沐沐14 小时前
【机器学习】7 种分类模型实战(逻辑回归→随机森林→SVM→AdaBoost→朴素贝叶斯→XGBoost→神经网络)
人工智能·pytorch·python·随机森林·机器学习·分类·逻辑回归
codefan※14 小时前
Reranker 模型实战:让 RAG 检索精度再提升 20%
大模型·llm·向量数据库·rag