
新智元报道
编辑:编辑部 HYZ
【新智元导读】Llama 4 刚出世就被碾压!英伟达强势开源 Llama Nemotron-253B 推理模型,在数学编码、科学问答中准确率登顶,甚至以一半参数媲美 DeepSeek R1,吞吐量暴涨 4 倍。关键秘诀,就在于团队采用的测试时 Scaling。
Llama 4 诞生不过 3 天,反手就被超越了。
刚刚,英伟达官宣开源「超大杯」Llama Nemotron 推理模型,共有 253B 参数,基于 Llama-3.1-405B 微调而来。
在多项基准测试中,Llama Nemotron 一举击败了两款 Llama 4 模型。而且仅用一半的参数,性能直逼 DeepSeek R1。
尤其是,在复杂数学推理 AIME(2024/2025)、科学推理 GPQA Diamond、编码 LiveCodeBnech 中,新模型取得 SOTA。

相比 DeepSeek R1 671B,它的推理吞吐量提升了 4 倍。

Llama-3.1-Nemotron-Ultra-253B-v1 经过后期训练,专注于推理、人类聊天偏好和任务,如 RAG(检索增强生成)和工具调用。
它能支持 128Ktoken 的上下文长度,且能够在单个 8xH100 芯片节点上进行推理。
这个模型之所以能达到如此强的推理性能,是因为在模型精度和效率之间取得了良好平衡,让效率(吞吐量)直接转化为成本节省。
通过采用一种新颖的神经架构搜索(NAS)方法,研究者大大减少了模型的内存占用,从而支持更大的工作负载,并减少了在数据中心环境中运行模型所需的 GPU 数量。
现在,该模型已准备好支持商用。

Llama Nemotron 超大杯上线,推理开源天花板
今年 3 月,英伟达首次亮相了 Llama Nemotron 系列推理模型。
它一共包含三种规模:Nano、Super 和 Ultra,分别针对不同场景和计算资源需求,供开发者使用。
· Nano
Nano(8B)基于 Llama 3.1 8B 微调而来,专为 PC 和边缘设备而设计。
如下图,Llama Nemotron Nano 在 GPQA Diamond、AIME 2025、MATH-500、BFCL、IFEval、MBPP 和 MTBench 等多项基准测试中,展现出领先性能。

图 1. Llama Nemotron Nano 在一系列推理和智能体基准测试中提供同类最佳性能
· Super
Super(49B)是从 Llama 3.3 70B 蒸馏而来,针对数据中心 GPU 进行了优化,便可实现最高吞吐量下的最佳准确性。
下图显示,Llama Nemotron Super 在 GPQA Diamond、AIME 2024/2025、MATH-500、MBPP、Arena Hard、BFCL 和 IFEval 等多项基准测试,取得了最优性能。

图 2. Llama Nemotron Super 在一系列推理和智能体基准测试中提供领先性能
· Ultra
Ultra(253B)是从 Llama 3.1 405B 蒸馏而来,专为多 GPU 数据中心打造最强智能体而设计,
图表显示,采用 FP8 精度的 Llama Nemotron Ultra 253B 在 GPQA、Complex Math、BFCL、LiveCodeBench 以及 IFEval 上表现出色。

图 3. FP8 精度的 Llama Nemotron Ultra 提供同类最佳的推理和智能体基准测试性能
Llama Nemotron 家族模型均是基于开源 Llama 构建,并采用英伟达审核后的数据集合成数据,因此全部可以商用。

秘密武器:测试时 Scaling
英伟达是如何训练出性能如此卓越的模型的?背后的关键,就在于「测试时 scaling」(或称推理时 scaling)和「推理」。
测试时 scaling 这项技术,会在模型推理阶段投入更多计算资源,用以思考和权衡各种选项,来提升模型响应质量,这就使得模型在关键下游任务上的性能得以提升。
对问题进行推理是一项复杂的任务,而测试时投入的计算资源,正是使这些模型能达到前述需推理水平的关键因素。
它能让模型在推理期间利用更多资源,开辟更广阔的可能性空间,从而增加模型建立起必要关联、找到原本可能无法获得的解决方案的几率。
尽管「推理」和「测试时 scaling」对智能体工作流如此重要,但有一个共同问题,却普遍困扰着如今最先进的推理模型------
开发者无法选择何时让模型进行推理,也就是说,做不到在「推理开启」和「推理关闭」之间自由切换。
而 Llama Nemotron 系列模型则攻破了这一难题,用「系统提示词」来控制推理开关!

如何构建?
Llama 3.3 Nemotron 49B Instruct 以 Llama 3.3 70B Instruct 为基础模型,经历了一个广泛的后训练阶段后,不仅模型尺寸减小,还让原始能力保留甚至增强了。
三个后训练阶段如下。
-
通过神经架构搜索 (NAS) 和知识蒸馏进行蒸馏。
-
监督微调:使用了由英伟达创建的 600 亿 Token 合成数据(代表了所生成的 3000 万样本中的 400 万),以确保在「推理关闭」和「推理开启」两种模式下内容的高质量。在此阶段,团队利用了 NVIDIA NeMo 框架,有效且高效地扩展了后训练流程。
-
强化学习:这个阶段是利用 NVIDIA NeMo 完成的,模型的对话能力和指令遵循性能得以增强,从而在广泛的任务中都能提供高质量的响应。

第一个阶段(步骤 1 和 2)已在神经架构搜索 (NAS) 技术报告中详细阐述。
简而言之,该阶段可被视为通过多种蒸馏和 NAS 方法,依据特定的旗舰硬件,将各模型的参数量「调整至合适尺寸」,从而达到预选的最优值。
模型后训练的第二个阶段(步骤 3 和 4)则涉及由合成数据驱动的监督微调,目的在于实现几个关键目标。
首要目标,就是提升模型在多种任务上的非推理性能。
后训练流程的这一环节(步骤 3)利用了团队精选的提示词,通过基线模型 (Llama 3.3 70B Instruct) 以及 Qwen2.5 7B Math 和 Coder 模型生成合成数据。
这些数据随后经过团队的精选与审核,用于增强模型在聊天、数学和代码任务上的「推理关闭」模式下的性能。
同时,团队也投入大量精力,确保在此阶段,「推理关闭」模式下的指令遵循和函数调用性能达到同类最佳水平。
第二个目标(步骤 4)是通过在精选的 DeepSeek-R1 数据(仅限数学、代码和科学领域)上进行训练,打造出同类最佳的推理模型。
每一个提示词和响应都经过严格筛选,确保在推理能力增强过程中仅使用高质量数据,并辅以 NVIDIA NeMo 框架的支持。这就能确保团队可以选择性地从 DeepSeek-R1 中蒸馏出它在优势领域所具备的强大推理能力。
「推理开启」/「推理关闭」两种模式的训练(步骤 3 和 4)是同时进行的,两者唯一的区别在于系统提示词。
这意味着,最终生成的模型既能作为推理模型运行,也能作为传统的 LLM 运行,并通过一个开关(即系统提示词)在两种模式间切换。
这种设计,使得组织机构能够将单个尺寸适宜的模型同时用于推理任务和非推理任务。
最后一个阶段(步骤 5 和 6)则采用了强化学习来更好地对齐用户意图与期望。
模型首先利用 REINFORCE 算法和基于启发式的验证器,针对指令遵循和函数调用这两个任务进行 RL 以提升性能(步骤 5)。
随后,采用 RLHF 技术,结合 HelpSteer2 数据集和 NVIDIA Llama 3.1 Nemotron 奖励模型,对最终模型进行面向聊天应用场景的对齐(步骤 6)。
最终,这些后训练步骤打造出了同类最佳的推理模型,并且通过提供在两种范式(推理与非推理)间切换的机制,确保了模型在函数调用和指令遵循方面的性能不受影响。
模型则能高效支持智能体 AI 工作流中的各个,同时还能保持针对旗舰级英伟达硬件优化的最佳参数量。

性能刷新 SOTA,吞吐量最高 5 倍提升
· Llama Nemotron Super
Llama Nemotron 融合了 DeepSeek-R1 等模型强大的推理能力,以及 Llama 3.3 70B Instruct 具备的强大世界知识与对可靠工具调用及指令遵循,最终打造出在关键智能体任务上表现领先的模型。
结果显示,Llama Nemotron 49B 准确性最高,且吞吐量提升达 5 倍。

图 5. Llama Nemotron Super 为智能体任务提供了最高的准确性和吞吐量,从而降低了推理成本
· Llama Nemotron Ultra 253B
Llama Nemotron Ultra 总参数量仅为 253B,但其推理性能已达到甚至超越 DeepSeek-R1 等顶级开放推理模型。
与此同时,凭借优化的模型尺寸实现了显著更高的吞吐量,并保留了优秀的工具调用能力。
这种卓越推理能力与毫不妥协的工具调用能力的结合,使其成为智能体工作流领域的同类最佳模型。
除了应用 Llama Nemotron Super 的完整后训练流程外,Llama Nemotron Ultra 还额外经历了一个专注的 RL 阶段,旨在进一步增强其推理能力。
结果表明,相较于 DeepSeek-R1 671B,Llama Nemotron Ultra 的吞吐量提升高达 4 倍,并且在 GPQA、AIME 2024、AIME 2025、BFCL、LiveCodeBench、MATH500 和 IFEval 的等权重平均准确性方面取得最高分。

图 6. Llama Nemotron Ultra 同时提供卓越的准确性和惊人的吞吐量

打造多智能体系统,搞定复杂任务
由 Llama 3.3 Nemotron 49B Instruct 驱动的多智能体协作系统,在 Arena Hard 基准测试中,拿下了惊艳的 92.7 分。
传统的测试时计算 scaling 方法,大多聚焦于那些有明确答案的问题,比如数学题、逻辑推理、编程竞赛。
现实中,许多重要任务缺乏可验证的解决方案,比如提出创新研究思路、撰写学术论文,或是为复杂的软件产品开发有效的交付策略。
这些问题,往往更具挑战性,也更贴近实际需求。
Llama Nemotron 测试时计算 scaling 系统正是为此而生,它模仿了人类解决复杂问题写作模式,通过以下几个步骤实现:
-
集思广益:针对问题初步构思一个或多个解决方案。
-
获取反馈:就初步方案征求朋友、同事或其他专家的意见。
-
编辑修订:根据收集到的反馈对初步方案进行修改。
-
择优选取:在整合修订意见后,选出最具潜力的最终解决方案。
这种方法使得测试时计算 scaling 技术能够应用于更广泛的通用领域任务。
要形象地理解这个多智能体协作系统,可以将其类比为一个团队协同工作,为一个没有标准答案的开放式问题寻找最佳解决方案。
与之相对,「长思考」则好比训练单个人深度、持久地钻研一个问题,最终得出一个可以对照标准答案进行验证的结果。
因此,多智能体系统强大之处在于,不仅提升解决复杂问题效率,还能通过协作挖掘更多可能性。
参考资料: