老黄亮出全球最小超算,大模型在家跑!5090 惊天问世,惊爆价 16499

【新智元导读】 就在刚刚,RTX 5090 震撼发布,国行版定价 16499 元!同时震撼亮相的,还有全球最小 AI 超算 Project Digits,在办公桌上就能跑出数据中心级算力!这一刻老黄摆出别致 pose,吸引了全球目光。

他来了,他来了,今天,老黄穿着崭新的夹克出场了。

刚刚的 CES 大会上,老黄宣布 RTX 5090 正式发布。

50 系列 GPU,价格如下------

  • RTX 5090:1999 美元 / RTX 5090 D:16499 元

  • RTX 5080:999 美元 / 8299 元

  • RTX 5070 Ti:749 美元

  • RTX 5070:549 美元

RTX 5090 系列和 RTX 5080 将于 1 月 30 日上市,RTX 5070 Ti 和 RTX 5070 将于 2 月上市,RTX 50 系列笔记本电脑将于 3 月推出

紧接着,老黄以一个别致的「美国队长」造型赢得全场喝彩,并揭秘了全新的数据中心超级芯片------Grace Blackwell NVLink72。

它配备了 72 个 Blackwell GPU、1.4 exaFLOPS 算力和 130 万亿个晶体管,目标是超越世界最快超算。

随后,全球首款真正意义上的桌面超算------Project Digits 震撼登场。

这款全球最小 AI 超算,售价仅 3000 美金。

有了它,200B 大模型在办公桌上就能跑了。

也就是说,它只占用你桌面一个咖啡杯的体积,却能提供数据中心级的算力!

搭载全新 GB10 Grace Blackwell 超级芯片的 Project Digits,能在 FP4 计算精度下,提供高达 1 PFLOPS 的性能。

老黄预言:在未来,每个数据科学家、研究者和学生的桌子上,都会有一台 Project Digits 这样的个人 AI 超算。

AI 时代,将属于每一个人。

RTX 5090 首秀,DLSS 4 也来了

经过数月的泄密和小道消息,全新一代的 RTX Blackwell GPU 终于正式亮相了。

首先来看一波性能参数:

  • 920 亿个晶体管

  • 4000 TOPS 的 AI 算力

  • 380 TFLOPS 的光追算力

  • 125 TFLOPS 的着色器算力

  • 32GB 的 GDDR7 显存

  • 1792GB / 秒的内存带宽

  • 高达 21760 个 CUDA 核心

值得注意的是,RTX 5090 D 的 AI 算力只有 2375 TOPS。

不过,虽然比满血版的 5090 少了一半,但至少比 4090 D 高了一倍。

如此豪华的配置,再加上 DLSS 4 和 Blackwell 架构的加持,RTX 5090 的性能直接达到了 RTX 4090 的两倍之多。

然而,这也意味着它的功耗会很高,(RTX 5090 的总显卡功耗为 575 瓦特,推荐电源供应器功率为 1000 瓦特)。

demo 显示,在 RTX 5090 上运行《赛博朋克 2077》时,启用 DLSS 4 后达到了 238 帧每秒,而在 RTX 4090 上启用 DLSS 3.5 时,只有 106 帧每秒。

RTX 5080 比 RTX 4080 快一倍,配备 16GB 的 GDDR7 显存,内存带宽为 960GB / 秒,CUDA 核心数量为 10752 个。

RTX 5070 Ti 配备 16GB 的 GDDR7 显存,内存带宽为 896GB / 秒,CUDA 核心数量为 8960 个。

RTX 5070 则配备 12GB 的 GDDR7 显存,内存带宽为 672GB / 秒,CUDA 核心数量为 6144 个。

老黄甚至宣称,RTX 5070 将以 549 美元的价格,提供 RTX 4090 级别的性能,这无疑是由于 DLSS 4 的提升。

左右滑动查看

另外,老黄还展示了 RTX Blackwell GPU,并进行了一场实时渲染演示。

他表示,「新一代的 DLSS 不仅仅是生成帧,它还能预测未来。我们用 GeForce 推动了 AI,而现在 AI 正在革新 GeForce。」

Nvidia 全新的 RTX 神经着色器可用于压缩游戏中的纹理,而 RTX 神经面孔则利用生成式 AI 来提高面部质量。

下一代 DLSS 包含了多帧生成技术,可以在每个传统帧的基础上生成最多三个额外的帧,使帧率比传统渲染提高了多至 8 倍。

并且,DLSS 4 还包括了 Transformer 在实时应用中的使用,能够提升图像质量、减少鬼影效果,并在动态画面中增加更高的细节。

值得一提的是,英伟达在 RTX 50 系列的 Founders Edition 上采用了全新设计。

配备了两个双流量风扇、3D 均热板和 GDDR7 显存。RTX 50 系列所有显卡均支持 PCIe Gen 5,并配有 DisplayPort 2.1b 接口,能够驱动最高 8K 分辨率和 165Hz 的显示器。

令人惊讶的是,RTX 5090 Founders Edition 是一款双插槽显卡,能够适配小型机箱,跟 RTX 4090 的尺寸相比,这是一个巨大的变化。

英伟达高级科学家 Jim Fan,发现了老黄演讲中关于图形技术的「华点」。

你们都在期待 RTX 5090 的发布,关注它的规格参数,但你们是否真正理解黄仁勋关于图形技术的说法?

新显卡使用神经网络来生成游戏中 90% 以上的像素!

传统的光线追踪算法只渲染约 10% 的内容,相当于一个「粗略的草图」,然后由生成式模型实时地在一次前向传递中填充其余的细节。

女士们先生们,AI 就是新一代的图形技术。

50 系显卡首秀之后,老黄提到「Scaling law 仍在继续」:

  • 第一个 scaling law 是预训练

  • 第二个 scaling law 是后训练

  • 第三个 scaling law 是测试时计算

scaling law 不断演进,推动着 AI 对计算的巨大需求。

令人惊叹的是,包括微软、Meta、xAI 约 15 个超算中心,都已经装上了 Blackwell GPU。

接下来,他又提到了智能体 AI,是测试时 scaling 完美的应用示例。

同时,他还宣布推出了一系列开放许可的基础模型------ Llama Nemotron,能够在各类智能体任务中提供极高的精度。

老黄称,「AI 智能体可能是下一个机器人产业,可能是价值数万亿美元机会」。

左右滑动查看

此外,英伟达 NIM Blueprint 即将在 PC 上线,借助这些蓝图,开发者能够基于 PDF 文档创建播客、生成由 3D 场景引导的令人惊艳的图像等。

左右滑动查看

桌面级 AI 超算,可跑 4050 亿 LLM

CES 大会收尾前,老黄还揭开了一款革命性的压轴产品------Project Digits,一台真正意义上「桌面超级计算机」!

它专为 AI 开发者、数据科学家、学生等,那些从事 AI 工作的专业人士而设计。

这款小型计算机是「全球最小」可运行 200B 参数模型的 AI 超级计算机,售价 3000 美金(约 21986 元)。

正如老黄所展示的那样,这款紧凑型台式系统提供强大算力的同时,仅占用了极小的桌面空间------

宽度大约相当于一个普通咖啡杯的长度,高度也仅有其一半左右。

想象一下,你的办公桌上放置一个微型设备,却能提供堪比数据中心级算力。

这就是 Project Digits 带来的革命性突破!

Project Digits 搭载了全新的 GB10 Grace Blackwell 超级芯片,能在 FP4 计算精度下,提供高达 1 PFLOPS(千万亿次浮点运算 / 秒)的 AI 性能。

这颗强大的芯片,还搭载了 20 个 ARM 核心的 Grace CPU。CPU 和 GPU 通过 NVIDIA NVLink C2C 技术实现高速互联。

每个 Project Digits 都配有 128GB 低功耗统一的高一致性内存,以及最高 4TB 的 NVME 存储。

有了它,开发者可以直接在桌面上,运行高达 2000 亿的大模型。

令人惊喜的是,通过 ConnectX 网络芯片,可以将 2 台 Project Digits 超级计算机互联,能够运行高达 4050 亿参数的模型。

此外,Project Digits 预装了 NVIDIA DGX 基础操作系统(基于 Ubuntu Linux)和 NVIDIA AI 软件栈,为开发者提供了一个开箱即用的 AI 开发环境。

开发者可以即插即用,快速启动 AI 项目的开发。

对于数百万开发者来说,它将成为一款改变游戏规则的创新产品。

尤其是,Project Digits 特别适合处理,需要依赖云计算 / 数据中心资源才能运行的 AI 大模型。

这款桌面 AI 超算应用场景非常广泛,AI 模型实验和原型开发、AI 模型微调和推理(用于模型测试或评估),以及本地 AI 推理服务(如聊天机器人或代码智能助手)。

此外,数据科学家还以利用系统运行 NVIDIA RAPIDS,直接在桌面就能高效处理大规模数据科学工作流。

有了英伟达 AI 完整技术栈的加持(框架、工具、API),Project Digits 成为了边缘计算应用的理想开发平台,特别适用于机器人技术、VLM 等领域。

Project Digits 的出世,标志着个人 AI 计算进入了一个全新的时代。

它能让全世界开发者能够在自己的办公桌上,运行超大规模的 AI 模型,补充了现有的云计算资源,极大地提升了 AI 开发效率。

物理 AI 新纪元,世界基础模型全开源

智能体 AI 之后,老黄又将话题引到了「物理 AI」。在他看来,「AI 的下一个前沿就是物理 AI」。

大模型的工作原理是,根据提示一次生成一个 token 产生输出。

如果这个上下文变成了现实周围环境,如果提示问题变成了请求,大模型需要从生成「内容 token」转变为生成「动作 token」。

而现在,我们需要做的是创建有效的「世界模型」,而不再是 GPT 系语言模型。

这个「世界模型」必须理解世界的语言,必须理解物理动力学,比如重力、摩擦,必须理解几何和空间关系,理解因果关系,理解物理永恒性......

CES 现场,老黄官宣了革命性世界基础模型开发平台------Cosmos,旨在理解物理世界。

它基于 2000 万小时数据集完成训练,能够将文本、图像、视频作为输入,可以生成虚拟世界状态、视频。

该平台包含多个功能模块,比如扩散模型、自回归模型、视频分词器,开发者可以根据具体需求选择使用。

值得一提的是,老黄现场直接将 Cosoms 全部开源,Nano、Super、Ultra 全部公开可下载。

此外,Cosoms 还能与 Omniverse 两者结合使用,能够提供一个物理真实的多元生成器。

也就意味着,物理模拟世界的一切,都可以通过 Cosoms 一次性生成出来。

老黄还提到了三台计算机------一台 DGX 用来训练 AI,另一台 AGX 用来部署 AI,最后一台便是 Omniverse+Cosmos。

若是连接前两者,我们就需要一个数字孪生。

老黄认为,「未来,每一个工厂都有数字孪生,你可以将 Omniverse 和 Cosoms 结合,生成一大堆未来场景」。

左右滑动查看

自动驾驶汽车 + 机器人

制造自动驾驶汽车,就像机器人一样,同样需要这三台计算机。

截至目前,每年生产 1 亿辆车,全球有数十亿辆车,都将在未来逐步变成高度自动化、完全自动化驾驶系统。

老黄预测道,这将会成为首个价值数万亿美金的机器人产业。

同时,他发布了下一代汽车处理器------Thor,处理性能比上一代 Orin 飙升 20 倍,而且也是通用机器人处理器。

那么,在自动驾驶背景下,Omniverse+Cosoms 能做什么?

它能够生成无限驾驶场景,加速短尾、无法收集数据等场景的自动驾驶的研发。

接下来,老黄召唤出所有机器人登台,并表示「通用机器人的 chatGPT 时刻到来」。

他称,「目前有三种机器人------智能体 AI、自动驾驶汽车、机器。如果我们拥有解决这三个问题技术,机器人时代就在眼前」。

在发布会最后的最后,老黄总结道,我们现在共有三台全新 Blackwell 系统正在生产中。

除了 Grace Blackwell NVLink72 超算,还有一个是物理 AI 基础模型,另一个是在智能体 AI 上研发的三类机器人。

而就在刚刚,英伟达股价再次创下历史新高。

一夜间,英伟达股价大涨超 3%,以每股超 150 美元的价格收盘,超过 11 月创下的每股 148.88 历史最高收盘纪录。

现在,如今,英伟达的最新估值已经达到了 3.66 万亿美元。

参考资料:

www.youtube.com/watch?v=k82...

相关推荐
程序猿阿伟16 分钟前
《鸿蒙微内核与人工智能算法协同,开启智能系统新时代》
人工智能·计算机视觉
Anlici36 分钟前
魔搭 AI 框架开发与 LangChain 的结合
人工智能·python·开源
智能汽车人37 分钟前
Robot---奇思妙想轮足机器人
人工智能·机器人·自动驾驶
cooldream20091 小时前
Microsoft Azure Cosmos DB:全球分布式、多模型数据库服务
数据库·人工智能·microsoft·知识图谱·azure
CSJK-1 小时前
模式识别与机器学习 | 第九章 降维
人工智能·机器学习·pca
神经美学_茂森1 小时前
【通俗理解】AI的两次寒冬:从感知机困局到深度学习前夜
人工智能·深度学习
勤劳的进取家1 小时前
支持向量机(SVM)算法
人工智能·机器学习·支持向量机
Chatopera 研发团队1 小时前
Deep learning for NLP around 2017
人工智能·深度学习·自然语言处理
studying_mmr1 小时前
Estimator (Statistic for Machine Learning)
人工智能·机器学习·big data·data·統計學
green5+11 小时前
机器学习期末复习知识点
人工智能·机器学习