Nano-vLLM-MS

Nano-vLLM-MS

项目地址:喜欢可以点点star

这是一个基于 nano-vLLM 的轻量级 vLLM 实现,增强了对 MoE 模型和 Speculative Decoding(推测解码)的支持。

核心特性

  • MoE 模型支持 - 在 nano-vLLM 推理流水线中支持 Qwen3-MoE 模型,包含基于 router 的 top-k expert 选择与融合专家计算。
  • Speculative Decoding 流水线 - 实现了端到端的推测解码路径,包含 N-gram 草稿 token 提案。
  • 🚀 高效 N-gram proposer - 使用基于 prompt 查找的方法,并结合 Numba 加速与自适应线程控制,降低大 batch 场景下的草稿生成开销。
  • 面向性能的运行时 - 保留了 nano-vLLM 的优化能力,例如 prefix cache、tensor parallel、CUDA graph capture 等。
  • 📊 可复现示例与基准测试 - 提供 example_moe.pyexample_sd.pybench.py,可快速验证功能并与 vLLM 对比吞吐。

安装

复制代码
pip install git+https://github.com/banfeb/nano-vLLM-MS2.git

模型下载

如果你想手动下载模型权重,可使用以下命令:

复制代码
huggingface-cli download --resume-download yujiepan/qwen3-moe-tiny-random \
  --local-dir ~/huggingface/qwen3-moe-tiny-random/ \
  --local-dir-use-symlinks False

快速开始

使用方式可参考 example_moe.pyexample_sd.py。API 基本与 vLLM 接口一致,LLM.generate 方法有少量差异:

复制代码
from nanovllm import LLM, SamplingParams
llm = LLM("/YOUR/MODEL/PATH", enforce_eager=True, tensor_parallel_size=1,speculative_config={})
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)
prompts = ["Hello, Nano-vLLM-MS."]
outputs = llm.generate(prompts, sampling_params)
outputs[0]["text"]

基准测试

基准测试请参考 bench.py

下面给出两组基准测试结果:

  1. 用于验证 Qwen3-MoE 执行路径的 MoE 推理基准测试。
  2. 基于 Qwen3-0.6B 的 Speculative Decoding 基准测试,用于衡量 N-gram 草稿生成流水线带来的吞吐提升。

MoE 推理基准测试

这组测试数据来自 MoE 模型路径,不包含 Speculative Decoding。所使用的 Qwen3-MoE 模型是一个随机参数 checkpoint,因此这里的测试主要用于功能验证与吞吐评估,而不是生成质量评估。

测试配置:

  • 硬件:RTX 3090(24GB)
  • 模型:yujiepan/qwen3-moe-tiny-random
  • 总请求数:256 条序列
  • 输入长度:在 100 到 1024 token 范围内随机采样
  • 输出长度:在 100 到 1024 token 范围内随机采样

性能结果:

推理引擎 输出 Token 数 耗时(s) 吞吐(tokens/s)
vLLM 133,966 5.53 24,242.19
Nano-vLLM-MS 133,966 6.37 23,214.07

Speculative Decoding 基准测试

为了评估 Speculative Decoding 的效果,我们另外在 Qwen3-0.6B 上测试了 Nano-vLLM-MS。该模型也是当前 speculative decoding 示例所使用的基础稠密模型。这里对比的是普通解码与开启 N-gram speculative path 后的吞吐表现。

测试配置:

  • 模型:Qwen3-0.6B
  • 推理引擎:Nano-vLLM-MS
  • 对比方式:普通解码 vs. Speculative Decoding

性能结果:

模式 吞吐(tokens/s)
普通解码 1,418.09
Speculative Decoding 1,996.81

在该配置下,Speculative Decoding 将吞吐从 1418.09 tok/s 提升到 1996.81 tok/s,约提升 40.8%

相关推荐
hunteritself1 小时前
GPT Image2 + Seedance 2.0:3 小时从剧本到 AI 互动影游,深度实测复盘
前端·数据库·人工智能·深度学习·transformer
初圣魔门首席弟子1 小时前
MLP(多层感知机)(纯大白话 + 生活比喻 + 零公式)
深度学习·生活
星光技术人2 小时前
Scaling-Aware Data Selection for End-to-End Autonomous Driving Systems
人工智能·深度学习
简简单单做算法2 小时前
基于GWO灰狼优化的Transformer-BiLSTM网络模型的时间序列预测算法matlab性能仿真
matlab·transformer·时间序列预测·bilstm·gwo灰狼优化
数智工坊2 小时前
ControlNet:为文生图扩散模型注入精准空间条件控制
论文阅读·人工智能·深度学习·transformer·迁移学习
隐层漫游者2 小时前
2026年了,还只会调包?手把手教你从零搭建CNN图像分类与RNN歌词生成器
深度学习
绵满3 小时前
“CREAD: A Classification-Restoration Framework with Error Adaptive Discretization for Watch Time Prediction in Video Recommender Systems” 论文笔记
深度学习·推荐系统
金融小师妹4 小时前
基于AI宏观周期模型的黄金牛市研究:1979、2011与2026三轮行情的共性与结构分化
深度学习·机器学习·重构·逻辑回归·线性回归
XD7429716364 小时前
科技早报晚报|2026年5月8日:Agent 后端、文档索引与 token 控制层,今天更值得跟进的 3 个开源机会
运维·深度学习·自动化·开源项目·模型训练·科技新闻·ai工程化