老黄入局吃龙虾！英伟达发布最强开源Agent推理模型

英伟达正式杀进龙虾养殖场，带着 "最强开源龙虾模型" 走来了！

刚刚，英伟达发布并开源了 120B 参数的 MoE 模型 Nemotron 3 Super。

在评估 OpenClaw 智能体控制能力的 PinchBench 测试中，这个模型一举拿下 85.6% 的高分，强势空降同类开源模型榜首。

另外，在 Artificial Intelligence Index 中，Nemotron 3 Super 也狂揽 37 分，直接甩开得分 33 分的 GPT-OSS。

除了这个 "龙虾搭档"，英伟达也开始在开源模型上全面发力了。

最新财务文件曝光，英伟达已经悄悄备好了 260 亿美元（约合 1789 亿人民币）巨资，将在未来五年内将这笔充足弹药全盘倾注于构建开源 AI 模型。

百万上下文，5 倍吞吐量

作为主攻多智能体协同的模型，Nemotron 3 Super 原生支持 100 万 token 的上下文窗口，为智能体在应对复杂多步流程时提供了不可或缺的长期记忆空间。

不仅文本处理容量庞大，它的运转效率也实现了大幅度跨越，吞吐量直接提升至上一代 Nemotron Super 的 5 倍以上。

同时，在处理代码和工具调用等结构化生成任务时，Nemotron 3 Super 最高能实现 3 倍的实际推理提速。

在 8k 输入与 64k 输出的特定运行设置下，它的推理吞吐量达到了 GPT-OSS-120B 的 2.2 倍。

落地到具体的实操基准测试，这台新模型在代码攻坚上给出了直观的数据对比。

在软件工程基准 SWE-Bench 中，它搭配 OpenHands 框架跑出了 60.47% 的准确率，而对标的 GPT-OSS 成绩为 41.9%。

面对考验底层控制能力的终端操作环境，模型的发挥依然扎实，在 Terminal Bench 的困难子集测试里，它以 25.78% 的得分，略微超过了 GPT-OSS 的 24.00%。

当然，模型的常识推理水准也经受住了考验。在 MMLU-Pro 测试中它拿下了 83.73 分，相比 GPT-OSS 的 81.00 分实现了进一步提升。

在模拟真实世界运作的复杂业务场景里，它的落地能力同样得到了验证，在包含航空以及零售和电信三大领域的 TauBench V2 测试中，它交出了 61.15% 的平均成绩。

面向 Blackwell 架构优化

Nemotron 3 Super 能够在实测中表现出色，主要归功于其对模型架构的针对性优化。

为了在处理百万级上下文时兼顾效率与精度，该模型采用了混合 Mamba-Transformer 架构。

这种设计交织使用了具备线性时间复杂度的 Mamba-2 层来处理长序列任务，并在关键深度插入了 Transformer 全局注意力层，以确保模型在处理海量信息时仍能实现精准的关联检索。

在模型规模的扩展上，为了解决传统混合专家架构在通信和计算上的瓶颈，模型引入了 Latent MoE 架构。

这项技术在进行路由决策前，先将 token 投影到一个压缩的低秩潜空间中进行降维处理。

这种方式使得模型能够在维持同等推理成本的前提下，直接调用四倍数量的专家网络，从而实现了更精细的专业化分工。

为了进一步提升生成速度，模型还原生应用了多 token 预测技术。

与逐个预测 token 的传统模式不同，Nemotron 3 Super 通过共享权重设计，在单次前向传递中即可并行预测未来的多个 token。

这种机制不仅强化了模型对长程逻辑结构的理解，还为其带来了内置的投机解码能力，显著缩短了代码编写和工具调用等复杂任务的生成耗时。

英伟达应用深度学习研究副总裁 Bryan Catanzaro 介绍，这正是模型响应速度快的原因之一。

此外，模型还在硬件层面进行了深度适配，采用了原生 NVFP4 格式进行预训练。

相比先训练再量化的常规路径，这种在 25 万亿个 token 上进行的低精度预训练，让模型从起步阶段就完全适应了 Blackwell 架构的算力特性。

最终，模型在 B200 芯片上跑出了比 H100 快四倍的推理速度，在极大降低内存需求的同时，依然维持了稳健的准确率表现。

Agent 能力针对性训练

为了让 Nemotron 3 Super 真正具备执行任务的智能体能力，英伟达在后训练阶段通过多层级的加固策略对其进行了全方位打磨。

在 SFT 阶段，研发团队采用了两阶段训练工艺，第一阶段通过标记级平均损失建立推理基础，第二阶段切换为样本级平均损失，有效解决了长输入场景下的性能降级问题，确保模型在处理海量信息时依然能给出精准的短输出。

针对实际应用中的智能体命令行交互，英伟达构建了一个包含 2 万个初始查询的种子任务集，并利用模型作为裁判进行了精细过滤，最终沉淀出 1.5 万个核心合成任务。

通过从高性能模型中蒸馏操作轨迹，Nemotron 3 Super 成功将复杂的终端交互知识内化为自身的原生技能。

进入强化学习阶段后，模型被投入到 NeMo Gym 平台的 21 种真实环境配置中进行高强度 "拉练"。

这里的考核标准不再是简单的对话满意度，深入到了工具调用的准确性、功能代码的可执行性以及复杂计划的完整性等核心维度。

针对门槛极高的软件工程任务，模型还经历了专门的 SWE-RL 阶段，在隔离的容器环境中通过不断的执行反馈来修正自身的逻辑漏洞。

此外，为了在追求效率的同时避免模型在陌生领域出现偏差，英伟达还引入了 PivotRL 技术。

这种方法在智能体编程和搜索等关键领域，通过重点强化专家轨迹中那些不确定性较高的决策点，提升了模型在多步工作流中的行为稳定性，有效遏制了长程任务中常见的推理漂移风险。

260 亿美元投向开源模型

最新开源模型强势登场之际，英伟达更远大的开源计划也已曝光：在未来五年内全盘倾注 260 亿美元巨资用于构建开源 AI 模型，并借此在自家的超级计算机级数据中心里搞一场极限拉练。

这笔投入不仅是为模型研发准备的充足弹药，更是为了通过跑起这些自家优化的开源模型，对计算、存储和网络性能进行全方位的压力测试。

随后，这些从实战中压榨出的宝贵数据，将被直接拿来反哺并规划未来的硬件架构路线图，真正实现由软件实操来定义硬件进化的技术路径。

在资源输出端，英伟达这次也表现得毫无保留，对外全面开放了模型的全参数权重，以及训练、评估配方和详细的部署手册。

这种慷慨的行为背后，也有着英伟达更高维度的谋划------通过亲手推动整个开源生态的强健发育，引导全球开发者将创新的根基更加牢固地绑定在自家的技术底座之中。

GitHub：
github.com/NVIDIA-NeMo...

技术报告：
research.nvidia.com/labs/nemotr...

参考链接：

$1$ developer.nvidia.com/blog/introd...

$2$ www.wired.com/story/nvidi...

欢迎在评论区留下你的想法！

--- 完 ---