英伟达发布高效小模型Jet-Nemotron:基于PostNAS与JetBlock架构,准确率与吞吐量双突破

摘要:英伟达最新推出的Jet-Nemotron小模型系列(2B/4B参数)凭借两项关键技术突破------后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,在多项基准测试中显著超越当前主流开源模型,并在H100 GPU上实现最高53倍的推理吞吐量提升。


一、模型概述

Jet-Nemotron是英伟达全华人团队研发的高效语言模型系列,包含2B和4B两个参数量版本。该模型在数学推理(Math)、代码生成(Code)、常识推理(Commonsense)、信息检索(Retrieval)和长上下文处理(Long Context)等任务中均表现出色,综合性能超越Qwen3、Gemma3、Llama3.2等同类模型。

二、核心创新点

1. 后神经架构搜索(PostNAS)

PostNAS是一种基于预训练模型的架构优化方法,其核心思想是在不重新训练的前提下,对现有Transformer架构进行高效搜索与适配。具体流程包括:

  • 冻结MLP层,仅对注意力模块进行优化;

  • 通过由粗到细的搜索策略,先确定全注意力层的最优位置,再选择线性注意力模块类型;

  • 结合硬件感知搜索,在保持吞吐量的同时提升模型容量与精度。

该方法显著降低了架构探索的成本与风险,并揭示出预训练模型中不同注意力层的重要性分布。

2. JetBlock线性注意力模块

JetBlock是一种融合动态卷积与硬件感知设计的新型线性注意力模块,其特点包括:

  • 在相同训练数据和训练方案下,性能显著优于Mamba2等现有线性注意力设计;

  • 在保持高训练和推理吞吐量的同时,提升模型表达能力;

  • 尤其适合长序列处理场景,显著降低KV缓存开销。

三、性能表现

  1. 准确率提升

    Jet-Nemotron-4B在MMLU-Pro、数学、代码等六大评估维度中接近全面领先,尤其在长上下文任务中表现突出。

  2. 推理效率突破

    • 在H100 GPU上,Jet-Nemotron-2B比Qwen3-1.7B推理速度快21倍,4B版本快47倍;

    • 生成长文本时吞吐量提升最高达53.6倍,解码阶段优势随上下文长度增加而扩大。

  3. 架构优化效果

    PostNAS的应用使模型在参数量增加的同时保持高吞吐量,且准确率不降反升。

四、技术意义与应用前景

Jet-Nemotron的推出标志着英伟达在高效小模型领域的持续深耕。此前发布的Nemotron-Nano-9B已在复杂推理任务中媲美8B模型,而本次2B/4B版本的进一步优化,彰显了其在端侧部署、高并发推理和长文本处理场景下的技术优势。

该方法为后续模型优化提供了新思路:

  • 基于预训练模型的架构搜索可大幅降低开发成本;

  • 硬件感知设计与动态卷积的结合有望成为线性注意力模块的新范式。

五、资源获取


总结:Jet-Nemotron通过PostNAS和JetBlock两项创新,实现了小模型在精度与效率上的双重突破,尤其适合资源受限场景下的高性能推理需求。这一进展为边缘计算和高并发服务提供了新的技术选择。

相关推荐
tangweiguo0305198714 小时前
AI文生图完整实战:基于阿里云百炼通义万相
人工智能·langchain
汽车仪器仪表相关领域14 小时前
Kvaser Memorator Professional HS/LS:高速 + 低速双通道 CAN 总线记录仪,跨系统诊断的专业级解决方案
网络·人工智能·功能测试·测试工具·安全·压力测试
开心的AI频道14 小时前
如何看待 OpenAI 近期小范围内测的 GPT-image-2 生图模型?
人工智能·gpt
西陵14 小时前
如何实现 Claude 生成式 UI?一套可落地的工程方案
前端·人工智能·ai编程
LONGZETECH14 小时前
新能源汽车专业升级|仿真教学软件科学布局指南
人工智能·物联网·架构·汽车·新能源汽车仿真教学软件
John_ToDebug14 小时前
Chrome 浏览器原生下载逻辑架构
chrome·架构·下载
reasonsummer14 小时前
【教学类-160-14】20260425 AI视频培训-练习014“豆包AI视频《月下枯蔷(哥特风)》+豆包图片风格:油画”
人工智能·音视频·豆包
AI周红伟14 小时前
周红伟:OpenClaw安全防控:OpenClaw+Skills+私有大模型安全部署、实操和企业应用实操
大数据·人工智能·深度学习·安全·copilot·openclaw
深度学习lover14 小时前
<数据集>yolo 常见对象检测<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·常见对象检测
武科大许志伟14 小时前
课题组学习北京大学许进教授“求解NP完全问题专用机——探针计算机”的专题学术报告
人工智能