Nano-vLLM-MS：基于 nano-vLLM ，支持 MoE 模型和 Speculative Decoding

Nano-vLLM-MS

这是一个基于 nano-vLLM 的轻量级 vLLM 实现，增强了对 MoE 模型和 Speculative Decoding（推测解码）的支持。

核心特性

✅ MoE 模型支持 - 在 nano-vLLM 推理流水线中支持 Qwen3-MoE 模型，包含基于 router 的 top-k expert 选择与融合专家计算。
✅ Speculative Decoding 流水线 - 实现了端到端的推测解码路径，包含 N-gram 草稿 token 提案。
🚀 高效 N-gram proposer - 使用基于 prompt 查找的方法，并结合 Numba 加速与自适应线程控制，降低大 batch 场景下的草稿生成开销。
⚡ 面向性能的运行时 - 保留了 nano-vLLM 的优化能力，例如 prefix cache、tensor parallel、CUDA graph capture 等。
📊 可复现示例与基准测试 - 提供 example_moe.py、example_sd.py 和 bench.py，可快速验证功能并与 vLLM 对比吞吐。

安装

arduino 复制代码

pip install git+https://github.com/banfeb/nano-vLLM-MS2.git

模型下载

如果你想手动下载模型权重，可使用以下命令：

perl 复制代码

huggingface-cli download --resume-download yujiepan/qwen3-moe-tiny-random \
  --local-dir ~/huggingface/qwen3-moe-tiny-random/ \
  --local-dir-use-symlinks False

快速开始

使用方式可参考 example_moe.py 或 example_sd.py。API 基本与 vLLM 接口一致，LLM.generate 方法有少量差异：

ini 复制代码

from nanovllm import LLM, SamplingParams
llm = LLM("/YOUR/MODEL/PATH", enforce_eager=True, tensor_parallel_size=1,speculative_config={})
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)
prompts = ["Hello, Nano-vLLM-MS."]
outputs = llm.generate(prompts, sampling_params)
outputs[0]["text"]

基准测试

基准测试请参考 bench.py。

下面给出两组基准测试结果：

用于验证 Qwen3-MoE 执行路径的 MoE 推理基准测试。
基于 Qwen3-0.6B 的 Speculative Decoding 基准测试，用于衡量 N-gram 草稿生成流水线带来的吞吐提升。

MoE 推理基准测试

这组测试数据来自 MoE 模型路径，不包含 Speculative Decoding。所使用的 Qwen3-MoE 模型是一个随机参数 checkpoint，因此这里的测试主要用于功能验证与吞吐评估，而不是生成质量评估。

测试配置：

硬件：RTX 3090（24GB）
模型：yujiepan/qwen3-moe-tiny-random
总请求数：256 条序列
输入长度：在 100 到 1024 token 范围内随机采样
输出长度：在 100 到 1024 token 范围内随机采样

性能结果：

推理引擎	输出 Token 数	耗时（s）	吞吐（tokens/s）
vLLM	133,966	5.53	24,242.19
Nano-vLLM-MS	133,966	6.37	23,214.07

Speculative Decoding 基准测试

为了评估 Speculative Decoding 的效果，我们另外在 Qwen3-0.6B 上测试了 Nano-vLLM-MS。该模型也是当前 speculative decoding 示例所使用的基础稠密模型。这里对比的是普通解码与开启 N-gram speculative path 后的吞吐表现。

测试配置：

模型：Qwen3-0.6B
推理引擎：Nano-vLLM-MS
对比方式：普通解码 vs. Speculative Decoding

性能结果：

模式	吞吐（tokens/s）
普通解码	1,418.09
Speculative Decoding	1,996.81

在该配置下，Speculative Decoding 将吞吐从 1418.09 tok/s 提升到 1996.81 tok/s，约提升 40.8%。