英伟达发布高效小模型Jet-Nemotron：基于PostNAS与JetBlock架构，准确率与吞吐量双突破

摘要：英伟达最新推出的Jet-Nemotron小模型系列（2B/4B参数）凭借两项关键技术突破------后神经架构搜索（PostNAS）与新型线性注意力模块JetBlock，在多项基准测试中显著超越当前主流开源模型，并在H100 GPU上实现最高53倍的推理吞吐量提升。

一、模型概述

Jet-Nemotron是英伟达全华人团队研发的高效语言模型系列，包含2B和4B两个参数量版本。该模型在数学推理（Math）、代码生成（Code）、常识推理（Commonsense）、信息检索（Retrieval）和长上下文处理（Long Context）等任务中均表现出色，综合性能超越Qwen3、Gemma3、Llama3.2等同类模型。

二、核心创新点

1. 后神经架构搜索（PostNAS）

PostNAS是一种基于预训练模型的架构优化方法，其核心思想是在不重新训练的前提下，对现有Transformer架构进行高效搜索与适配。具体流程包括：

冻结MLP层，仅对注意力模块进行优化；
通过由粗到细的搜索策略，先确定全注意力层的最优位置，再选择线性注意力模块类型；
结合硬件感知搜索，在保持吞吐量的同时提升模型容量与精度。

该方法显著降低了架构探索的成本与风险，并揭示出预训练模型中不同注意力层的重要性分布。

2. JetBlock线性注意力模块

JetBlock是一种融合动态卷积与硬件感知设计的新型线性注意力模块，其特点包括：

在相同训练数据和训练方案下，性能显著优于Mamba2等现有线性注意力设计；
在保持高训练和推理吞吐量的同时，提升模型表达能力；
尤其适合长序列处理场景，显著降低KV缓存开销。

三、性能表现

准确率提升 ：

Jet-Nemotron-4B在MMLU-Pro、数学、代码等六大评估维度中接近全面领先，尤其在长上下文任务中表现突出。
推理效率突破：
- 在H100 GPU上，Jet-Nemotron-2B比Qwen3-1.7B推理速度快21倍，4B版本快47倍；
- 生成长文本时吞吐量提升最高达53.6倍，解码阶段优势随上下文长度增加而扩大。
架构优化效果 ：

PostNAS的应用使模型在参数量增加的同时保持高吞吐量，且准确率不降反升。

四、技术意义与应用前景

Jet-Nemotron的推出标志着英伟达在高效小模型领域的持续深耕。此前发布的Nemotron-Nano-9B已在复杂推理任务中媲美8B模型，而本次2B/4B版本的进一步优化，彰显了其在端侧部署、高并发推理和长文本处理场景下的技术优势。

该方法为后续模型优化提供了新思路：

基于预训练模型的架构搜索可大幅降低开发成本；
硬件感知设计与动态卷积的结合有望成为线性注意力模块的新范式。

五、资源获取

论文地址：https://arxiv.org/pdf/2508.15884
开源代码：https://github.com/NVlabs/Jet-Nemotron

总结：Jet-Nemotron通过PostNAS和JetBlock两项创新，实现了小模型在精度与效率上的双重突破，尤其适合资源受限场景下的高性能推理需求。这一进展为边缘计算和高并发服务提供了新的技术选择。