刚刚,老黄携 GB300 震撼登场!DeepSeek 推理暴涨 40 倍加速全球最快,26 年 Rubin 问世

【新智元导读】万众瞩目的 Blackwell Ultra 终于登场亮相,专为 DeepSeek R1 这样的推理模型打造,性能直达 Hoper 的 40 倍!而下一代 GPU「Rubin」,将于 2026 年下半年问世。这次,老黄的金句直接升级为「买得越多,赚得越多」。

全世界都错了,Scaling Law 并没有撞墙!

GTC 大会上,老黄这样向全世界这样宣布。

更令人瞩目的是,DeepSeek R1 推动的推理时 Scaling,让 Scaling Law 出现了全新的发展路线。

刚刚在圣何塞结束的 GTC 大会上,老黄声称没有脚本、没有提词器,用两个多小时向我们介绍了英伟达过去一年的进展。

老黄表示,如果说从前的 GTC 说 AI 的伍德斯托克音乐节,那今年搬进体育场的 GTC 就是 AI 的超级碗,而唯一不同的说,每个人都是超级碗的赢家。

全场精彩亮点如下:

  • Blackwell 已全面投产,而且进展非常快,客户需求也非常大。这一切皆是因为 AI 拐点已至,训练推理 AI / 智能体系统对计算量的需求大大增加。
  • Blackwell NVL72 结合 Dynamo 推理性能提升了 40 倍,相当于一座 Hopper AI 工厂的性能。
  • 英伟达未来三年路线图已公开,GPU 每年一更:Blackwell Ultra 预计 2025 年下半年上市,下一代 Rubin 2026 年问世。
  • 英伟达正在构建 3 个 AI 基础设施:云上 AI 基础设施,企业 AI 基础设施和机器人 AI 基础设施。

英伟达预言:在未来,每个拥有工厂的公司将来都会有两个工厂,一个是用来制造产品的实体工厂,另一个是用于数学运算的 AI 工厂。为此,各类 CUDA-X 软件库已经准备好,引爆全行业的变革。

而这场革命的背后,就是英伟达的 CUDA 核心,以及为之配备的惊人算力。

AI 芯片每年一更,下一代 Rubin 明年亮相

随着 Blackwell GPU 的全面发货,老黄也按照惯例发布了接下来几款新产品的路线图。

首先,是对训练和测试时推理能力进行大幅提升,并将在今年下半年问世的 Blackwell Ultra。

根据英伟达官方博客介绍,Blackwell 已经让 DeepSeek-R1 打破了推理性能的世界纪录。

而与 Blackwell 相比,Blackwell Ultra 芯片还有超强进化!

它的显存从 192GB 提升到了 288GB。而 GB300 NVL72 的 AI 性能,则比 NVIDIA GB200 NVL72 高出 1.5 倍。

接下来,是最为重磅的 Vera Rubin,预计在 2026 年下半年发布。

这个命名致敬的是发现暗物质的天文学家 Vera Rubin。

Vera Rubin 有两个部分,一个称为 Vera 的 CPU 和一个称为 Rubin 的新 GPU。

两部分一同使用时,Rubin 可以在推理时实现每秒 50 千万亿次浮点运算,比 Blackwell 速度高出一倍多。

显存方面,Rubin 将升级为 HBM4,容量仍然为 288GB。

不过,Rubin 的带宽将会有大幅升级,从原来的 8TB/s 提高到 13TB/s,提高了 1.6 倍。

不仅如此,NVIDIA 还会为 Rubin 扩展 NVLink,将其吞吐量提升到 260TB/s,直接翻倍!

机架间的全新 CX9 链路达到了 28.8TB/s。

不仅有标准版 Rubin,老黄现场还推出了 Rubin Ultra 版本。

Rubin Ultra NVL576 在 FP4 精度下进行推理任务时,性能达到了 15 ExaFLOPS,在 FP8 精度下进行训练任务时,性能为 5 ExaFLOPS。相比 GB300 NVL72 性能有 14 倍的提升。

配备 HBM4e 内存,带宽为 4.6 PB/s,支持 NVLink 7,带宽为 1.5 PB/s,较上一代提升 12 倍。

Rubin Ultra NVL576 机架支持 CX9,带宽为达到了 115.2 TB/s,较上一代提升了 8 倍。

预计在 2027 年下半年推出。

Blackwell NVLink72 和 Rubin NVLink 576 尺寸最直观的对比,再一次证明了需要在 scale up 之前,先要完成 scale out。

可以看到浮点运算能力,Hopper 架构是 1 倍提升,Blackwell 68 倍提升,到了 Rubin 直接跃升至 900 倍。

另外总拥有成本(TCO),也在随着架构迭代大幅降低。

那么,英伟达是如何实现 scale up?

主要是通过网络 InfiniBand 和 Spectrum X。后者具备了低延迟和拥塞控制特性,并且成功 scale up 有史以来最大的单 GPU 集群。

不仅如此,英伟达还希望在 Rubin 时间框架内,将 GPU 的数量扩展至数十万个。而这一目标实现的主要挑战在于,大规模连接的问题。

值得一提的是,老黄官宣了英伟达首个共封装硅光子系统,也是世界上第一个每秒 1.6T 的 CPO。

它基于一种「微环谐振器调制器」的技术(micro ring resonator modulator),并使用了台积电工艺技术构建。

现在,具备了将硅光子学与共封装的结合,无需使用收发器,直接接入光线,并将其集成到 512 径基数的交换机中。

这样,便能够轻轻动动扩展至数十万,甚至百万 GPU 规模。

至于再下一代,则是将于 2028 年上市的 Feynman(费曼)。

该命名致敬了美国著名理论物理学家 Richard Feynman。

桌面级「黄金超算」,AI 算力 20000 TFLOPS

苹果这个月刚刚发布能跑 6000 亿参数的 Mac Studio,反身又要被英伟达超越了。

今天,老黄正式推出 Blackwell RTX PRO 工作站和服务器系列,专为开发者、创意工作者、数据科学家构建和协作提供全方位的 AI 支持。

具体来说,它包括了数据中心 GPU、桌面 GPU,以及笔记本 GPU。

这些 GPU 能够提供卓越的性能、效率,解锁生成式 AI、智能体 AI 和物理 AI 的巨大潜力。

RTX PRO 6000 Blackwell 采用了英伟达流式多处理器提供高达 1.5 倍吞吐量,第五代 Tensor Core 支持高达每秒 4000 万亿次 AI 运算,第四代 RT Core 性能提升高达前一代的 2 倍。

不仅如此,老黄还带来了两款由 Blackwell 驱动的 DGX 个人桌面 AI 超级计算机。

一个是 DGX Spark(原名 Project DIGITS),另一个是 DGX Station。

老黄称,「AI 已经改变了计算堆栈的每一层,理所当然就会出新一类的计算机------专为 AI 原生开发者设计,并运行 AI 原生程序」。

这两款桌面超级计算机,便是这样的存在。

DGX Spark 可以称得上,世界上最小的 AI 超级计算机,配备 128GB 内存。

核心是 GB10 Grace Blackwell 超级芯片,能够提供每秒高达 1000 万亿次操作的 AI 计算能力,可以用于微调和推理模型。

DGX Station 则将数据中心级别的性能,带到每个人桌面用于 AI 开发。

作为首款采用 GB300 Grace Blackwell Ultra 桌面超级芯片构建的系统,DGX Station 配备了高达 784GB 的统一内存,以加速大规模训练和推理工作负载。

如下是 Blackwell 驱动下,所有英伟达 DGX 家族。

Scaling Law 没撞墙,2028 年数据中心将达一万亿!

开场时,老黄手举 GeForce 5090,和 4090 做了对比,它的体积小了 30%,性能的提升却难以置信。

GeForce 将 CUDA 带给了全世界,而 CUDA 开启了 AI,而 AI 又反过来改变了计算机图形学。

如今大火的则是智能体 AI,它可以感知、理解、推理,还能计划行动,使用工具,自己访问网站去学习。

而接下来,就是物理 AI,它将理解物理世界,理解摩擦、惯性、因果关系。它使机器人技术成为可能。

而这次大会上,Agentic AI 和 Physical AI 将是全程的核心。

接下来,老黄重提了 Scaling Law。

这涉及了三大问题:如何解决数据?如何训练模型?如何扩展?

预训练要解决数据问题,后训练解决的是 human-in-the-loop 问题,而测试时 Scaling,则提升了 AI 的推理。

老黄表示,去年整个世界都搞错了,Scaling 并没有撞墙!

从 GPT 开始,到如今的推理 AI,它不再是仅仅预测下一个 token,而是生成 100 多倍的 token。

这样,推理计算量就更高了,计算速度必须提高 10 倍,如今需要的计算量比去年这个时候我们认为需要的多出 100 倍。

那么,数据应该从哪里来?答案就是强化学习。

通过强化学习,我们可以生成大量 token,这就涉及到了合成数据,给整个行业带来巨大的计算挑战。

比较一下 Hopper 的峰值年份和 Blackwell 的第一年,会发现:AI 正处于转折点。

Blackwell 发货才一年,我们就见证了全球 AI 基础设施的惊人增长。仅在 2024 年,全球 TOP 4 的云服务商买进的 Hopper 架构芯片就达到 130 万块。

老黄表示,未来数据中心建设将达到一万亿美元的规模,并且他确信,这个时间很快了!

根据预测,到 2028 年就能达到这个规模。

如今,通用计算已经走到了尽头,我们已经到达加速计算临界点,需要一种新的计算方法。

世界正在经历一个平台转移,从在通用计算机上运行的手写软件,转向在加速器和 GPU 上运行的机器学习软件。

过去,我们编写软件并在计算机上运行。未来,计算机将为软件生成 token。

计算机已经成为生成 token 的工具,而不仅仅是文件的检索工具,老黄称之为「AI 工厂」。

上面这张幻灯片,可以说是 GTC 最核心内容的结晶。

英伟达通过由 Grace Hopper 和 Grace Blackwell 架构支持的各种 CUDA-X 库,为每一个科学领域提供了加速框架。

比如,解决涉及稀疏矩阵的大型工程仿真问题的 cuDSS,模拟极其复杂的量子系统的 cuQuantum 等等。

而这些,仅仅是使加速计算成为可能的库的样本。

如今,通过英伟达的 900 多个 CUDA-X 库和 AI 模型,所有人都可以加速科学研究,重塑行业,赋予机器视觉、学习和推理能力。

老黄表示,从业三十年中,最令自己感动的一件事,就是一位科学家对自己说:「Jensen,因为你的工作,我可以在有生之年完成我的毕生事业」。

如今,每年有 1000 亿美元的资本投入无线网络和用于通信的数据中。

加速计算的趋势已经无法阻挡,AI 将进入每个行业,比如改变无线电信号。

既要大量 token 思考,又要快速生成

如今,英伟达已经完成了计算机架构的基本转型。

大约三年前,他们就展示过 Grace Hopper(Ranger 系统),但它太大了,需要解决规模扩展的问题。

当时的想法是,使用大量商用计算机,将它们连接成一个大型网络,然而,这种方式会消耗太多电力和能力,根本无法实现深度学习。

而 HGX 系统架构,彻底解决了纵向扩展的问题。

它包含 8 个 GPU,通过 MVLink 8 连接到 CPU 架上,然后再通过 PCI Express 进行连接,很多这样的设备再用 InfiniBand 连接起来。

这,就英伟达在向外扩展之前所能达到的最大规模了。

然后,他们又做出了世界上性能最高的交换机------NVLink 交换机,使得每个 GPU 能够同时以全带宽与其他所有 GPU 通信。

同时,利用液冷将计算节点也压缩到 1u 的托盘中,从而为行业带来了巨变。

从此,集成 NVLink 转向分散式 NVLink,从空气冷却转变为液冷,从每台计算机约 6 万个组件到每个机架 60 万组件,120 千瓦功率,全液冷设置。

于是,一个机架里,就有了一个 Exaflops 级别的超算。

英伟达的目标,就是构建这块芯片,此前没有任何一种工艺能实现。

它包含 130 万亿个晶体管,其中 20 万亿用于计算,而解决方法,就是将其拆分到 Grace Blackwell NVLink 72 机架中。

最终的结果,就是英伟达实现了 Scaling,可以说,这是全世界实现过最极端的 Scaling。

这个过程中的计算量,可能已经达到了内存带宽每秒 570TB。而这台机器,已经达到了每秒百万万亿次浮点运算。

实际上,推理 Scaling 是一个「终极计算」问题。

推理是工厂生成 token 的过程,只有具备极高性能,才会提升服务质量,以及收入和盈利的能力。

生成的 token 越多,AI 就越智能。但问题是,吞吐时间太长且速率慢,客户也不愿意买账。

因此,在计算工厂中,响应时间和吞吐量中间,存在着基本的矛盾关系。

老黄展示这张图中,x 轴代表了生成的 token,y 轴代表着每秒 token 吞吐效率,理想情况下,图中黄色曲线应该是一个方形,即在工厂能力极限之内,非常快速生成 token。

然而, 现实没有哪个工厂可以做到这点。

曲线才是最符合现实的一种,工厂的目标是最大化曲线下方的面积,越是向外推,代表着建造的工厂越优秀。

另一个维度,则需要巨大的带宽、最大的浮点运算能力。

现场,老黄展示了一个传统大模型和推理模型,基于同一段提示通过思考 token 解决问题的关键区别。

一边是 Llama 3.3 70B,另一边是 DeepSeek R1。

这段提示词的大意是要求在遵循传统、拍照角度和家族争端等约束条件下,在婚礼宴会上安排宾客入座。

I need to se‍at 7 people around a table at my wedding reception, but my parents andin-laws should not sit next to each other. Also, my wife insists we look better in pictures when she's on my left, but l need to sit next to my best man. How do l seat us on a roundtable? But then, what happens if we invite our pastor to sit with us?

结果,传统 LLM 只需不到 500 个 token 就能快速回答,但结果是错误的。

而推理模型则需要超过 8000 个 token 来推理这个比较简单的问题。

推理模型需要消耗超过 20 倍的 token 量完成问题,计算量也随之增加了 150 倍。

而下一代模型,参数可能会达到万亿级别。

解决方案,就是将这些万亿级的参数分布在多个 GPU 上,通过管线并行、张量并行和专家并行的组合来解决。

8000 多个 token,就意味着数万亿字节的信息被输入到 GPU 中,逐个生成 token。

这,就是我们需要 NVlink 到根本原因------它让我们能把这些 GPU 组成一个巨大的 GPU,实现规模的终极 Scaling。

终极摩尔定律:买越多,赚越多

接下来,黄仁勋发布了 NVIDIA Dynamo,这是一款开源推理软件,旨在以最低成本和最高效率加速和扩展 AI 工厂中的推理模型。

他将其称之为「AI 工厂的操作系统」。

「正如发电机(Dynamo)推动了工业革命,NVIDIA Dynamo 将会革新 AI 工厂」。

随着 AI 推理变得越来越主流,AI 模型在每次提示下都会生成成千上万的 token 来进行「思考」。

如何在提高推理性能的同时,还能不断降低推理成本?

这便是 NVIDIA Dynamo 推出的意义。

NVIDIA Dynamo 是 NVIDIA Triton Inference Server 的下一代产品,它能协调并加速数千个 GPU 之间的推理通信,并使用分布式服务把 LLM 的处理和生成阶段分配到不同的 GPU 上。

这样每个阶段都能根据自己的需求单独优化,确保 GPU 资源被充分利用。

在同样的 GPU 数量下,Dynamo 能让运行 Llama 模型的 AI 工厂在 Hopper 架构上性能和收入双双翻倍。

在 GB200 NVL72 集群上运行 DeepSeek-R1 模型时,NVIDIA Dynamo 的智能推理优化还能让每个 GPU 生成的 token 数量提升超过 30 倍!

为了实现这些推理性能的提升,NVIDIA Dynamo 能根据请求量和类型的变化,动态添加、移除或重新分配 GPU,还能在大型集群中精准找到特定 GPU 来减少响应计算和路由查询。

它还能把推理数据卸载到更便宜的内存和存储设备上,需要时再快速取回,尽量降低推理成本。

老黄在现场宣布 NVIDIA Dynamo 完全开源,支持 PyTorch、SGLang、NVIDIA TensorRT-LLM 和 vLLM。

下图中,横轴代表为用户每秒处理的 token 数量,纵轴是工厂每秒处理的 token 吞吐量。

比如,Hopper 平台用 8 个 GPU 连上 InfiniBand,可以为每个用户提供 100 token / 秒的处理速度。

老黄开始算了起来,「有了这个坐标,我们就可以用 token / 秒和能耗来衡量收益了。」

比如,250 万 token / 秒按每百万 token 10 美元算,就能带来每秒 2500 美元的收入;而如果降到 10 万 token / 秒,那也就是 250 美元。

而一年有 3000 多万秒,这直接关系到 1 兆瓦数据中心的年收入。

所以,目标是找到 token 处理速度和 AI 智能之间的平衡点:速度快能做聪明 AI,客户愿意多付钱,但越聪明,批量生产就越难。

相比之下,新的 Blackwell 架构比 Hopper 强多了,尤其在能耗固定的情况下,性能提升了 25 倍,甚至在推理模型上直接比 Hopper 高 40 倍。

更厉害的是,Blackwell 用 MVLink 8 技术加速,还引入了 4 位浮点数优化,减少能耗提升效率。

老黄表示,未来数据中心都会受限于电力,收入也跟电力挂钩,所以能效高的架构最重要。

接下来,Blackwell 将扩展到 MVLink 72,再加上 Dynamo 软件,效果将更上一层楼。

老黄表示下图里的彩虹线非常惊艳,展示了各种配置下的最佳表现。

从顶部 3000 批大小到底部的 2 批大小,配置灵活应变。

这些优化让数据中心能适应不同工作负载,证明了架构的重要性。

说到这,老黄举了个例子,在推理模型上,Blackwell 的性能直接比 Hopper 高了 40 倍,真的很了不起!

「一旦 Blackwell 开始大规模出货,Hopper 可能连送人都没人要了。」老黄在现场打趣道。

黄仁勋说,销售团队听到他这话估计要急了,担心影响会 Hopper 的销量。

但老黄认为,技术进步太快,工作负载又重,像 AI 工厂这样的大型项目,最好投资在最新版本的技术上,比如 Blackwell,这样才能跟上潮流,避免落后。

接着,他拿出一个具体的例子来对比:一个 100 兆瓦的 AI 工厂用 Hopper 技术需要 45000 个芯片、1400 个机架,每秒能产出 3 亿个 token。

而同样的工厂如果用 Blackwell,虽然芯片数量减少,但效率更高,整体性能更强。

老黄再次调侃道,销售团队可能觉得这是在「少卖货」,但实际上还是之前那个观点,「 the more you buy, the more you save」(买得越多,省得越多)。

甚至,现在还要更进一步:「the more you buy, the more you make」(买得越多,赚得越多)。

首个通用机器人模型开源,规模仅 2B

正如老黄所言,Physical AI 也是今年行业的重点。

他表示,「预计本世纪末,世界劳动力短缺人数将超过 5000 万,而通用机器人的时代已经到来」。

具身智能也遵循着三大 Scaling Law。

数据短缺成为 Scaling 一大难题,英伟达 Omniverse 和 Cosmos 能够同时为具身智能的训练,生成大量多样化、高质量的数据。

然后开发者利用 Isaac Lab 通过增强数据集后训练机器人策略,并通过模仿学习让机器人通过克隆行为来学习新技能,或者通过试错和强化学习 AI 反馈进行学习。

这一次,英伟达正式官宣了世界首个开源、完全可定制的通用人形机器人模型------GROOT N1。

这款模型的设计从人类认知过程汲取灵感,采用了「双系统架构」,分别可以进行快思考和慢思考。

技术报告:d1qx31qr3h6wln.cloudfront.net/publication...

在视觉语言模型驱动下,慢思考系统(System 2)能够对环境和指令进行推理,然后规划出正确的行动。

快思考系统(System 1),可以将上述计划转化为机器人精确、连续的动作,包括操纵物体、执行多步骤序列的能力。

值得一提的是,System 1 是基于人类演示数据和 Omniverse 生成大量的合成数据进行训练的。

GROOT N1 可以轻松在上见任务中进行泛化,或执行需要长上下文和多种通用技能组合的多步骤任务。

比如,抓取、用一只手臂 / 两只手臂移动物体,以及在两个手臂之间传递物品。

此外,英伟达还与 DeepMind、迪士尼研究一起开发下一代开源的 Newton 物理引擎,能够让机器人学习如何更精确处理复杂任务。

随后,以星球大战 BDX 机器人为灵感,装上 Newton 引擎的 Blue 上台和老黄来了一波有趣的互动。

最后,老黄预言:在未来,机器人领域将成为最大的产业。

毫无疑问,英伟达又一次成为了赢家。

参考资料:

nvidianews.nvidia.com/news/nvidia...

相关推荐
后端小肥肠20 分钟前
即梦3.0+Coze王炸联动:10w+小人国微观生活视频轻松量产!(附喂饭级教程)
人工智能·aigc·coze
华院计算1 小时前
华院计算出席信创论坛,分享AI教育创新实践并与燧原科技共同推出教育一体机
人工智能·科技·百度
深兰科技1 小时前
深兰科技董事长陈海波受邀出席2025苏商高质量发展(常州)峰会,共话AI驱动产业升级
人工智能·mongodb·intellij-idea·hbase·flume·新质生产力·深兰科技
说私域1 小时前
基于开源AI大模型AI智能名片S2B2C商城小程序源码的销售环节数字化实现路径研究
人工智能·小程序·开源·零售
正在走向自律2 小时前
Trae上手指南:AI编程从0到1的奇妙跃迁
人工智能
MILI元宇宙2 小时前
DeepSeek R1开源模型的技术突破与AI产业格局的重构
人工智能·重构·开源
江苏泊苏系统集成有限公司3 小时前
半导体晶圆制造洁净厂房的微振控制方案-江苏泊苏系统集成有限公司
人工智能·深度学习·目标检测·机器学习·创业创新·制造·远程工作
猿小猴子4 小时前
主流 AI IDE 之一的 Windsurf 介绍
ide·人工智能
智联视频超融合平台4 小时前
无人机+AI视频联网:精准狙击,让‘罪恶之花’无处藏身
人工智能·网络协议·安全·系统安全·音视频·无人机