全球最强GPU芯片已量产、下一代Rubin曝光,老黄继续打破摩尔定律

黄仁勋:我家的 GPU 芯片一年一更新,其他家怎么追?

昨晚,英伟达创始人、CEO 黄仁勋在 2024 年 COMPUTEX 科技大会上又为全球发烧友们、显卡买家们带来了一场重磅演讲。

经典皮肤(皮衣)老黄亮相。

在会上,黄仁勋分享了有关 AI 芯片及架构、加速计算、AI 理解物理世界、机器人的成果和洞见。

量产版 Blackwell 亮相

下一代 AI 平台 Rubin 两年后到来

今年 3 月,英伟达在其一年一度的 GTC 大会上官宣了 2080 亿晶体管的 Blackwell 芯片。它是英伟达首个采用 MCM(多芯片封装)设计的 GPU,在同一个芯片上集成了两个 GPU。

近三个月过去了,Blackwell 芯片发展到了哪一步了?

老黄现场果然没让人失望,拿出了最新量产版的 Blackwell。他表示,这款当今世界上最强大的 GPU 已经投入了生产。

黄仁勋称,短短八年时间,英伟达使得 AI 算力从 2016 年 Pascal 的 19 TFLOPS 提升到了 2024 年 Blackwell 的 20000 TFLOPS,整整提升了 1000 倍。这一速度几乎超越了摩尔定律在最佳时期的增长。

AI 算力提升的同时,成本也在逐年下降。

黄仁勋以训练 GPT-4(1.8 万亿参数)为例,八年时间,该模型的能耗从 2016 年的 1000+GWh 下降到了如今的 3GWh,下降了 350 倍。这里他甚至还为 token 定了一个中文译名 ------ 词元。

集成了 Blackwell 芯片的最新 DGX 超算系统在各方面都实现了质的提升。

与上一代 Hopper 系统相比,Blackwell 系统的 NVLink 域集成 72 个 GPU、性能提升了 9 倍,NVLink 带宽增加了 18 倍,AI 算力提升了 45 倍,供能提高了 10 倍。

此外,黄仁勋还公开了 Blackwell 后三代芯片路线图,即 Blackwell Ultra(2025 年)、Rubin(2026 年)和 Rubin Ultra(2027 年)。这也是下一代 AI 平台 Rubin 首次亮相。

黄仁勋表示,英伟达将保持一年一次的更新节奏,确保所有产品实现 100% 架构兼容。不过,他并没有透露关于 Rubin 的更多细节。

可以看到,英伟达推出全新 GPU 的速度始终跑在了其他公司的前头。有人对此表示,由于缺少强有力的竞争对手,现在英伟达只能与摩尔定律展开竞争了。

图源:X@Sentdex

当然,英伟达这些年的成功在其股票市值上得到了很好地体现。最近几天的市值一度达到了 2.8 万亿美元,与市值第一的苹果之间的差距越来越小。

游戏助手 Project G-Assist

Project G-Assist 是一个由 RTX 驱动的 AI 助手,为 PC 游戏和应用提供上下文感知的帮助。

一般来讲,PC 游戏拥有广阔的世界和复杂的机制,即使是高级玩家也会感到挑战。Project G-Assist 旨在让玩家能够方便地获取游戏和系统方面的知识。

Project G-Assist 可以接收玩家的语音或文本输入,同时还可以获取游戏窗口中的快照。这些快照被输入到 AI 视觉模型中, 从而提供上下文感知和特定于应用程序的理解。之后 LLM 输出一个富有洞察力和个性化的响应 ------ 要么是文本,要么是 AI 语音。

为了展示 Project G-Assist 的潜力,英伟达还和 Studio Wildcard 展开合作,上新了一系列演示:例如通过按下快捷键或使用唤醒短语,AI 助手可以帮助玩家解答问题。

AI 助手还能建议玩家是否应该避开游戏中的恐龙,或者提供建议来驯服特定的野兽。

此外,Project G-Assist 在性能调优方面也非常有用。

通过一个简单的提示,Project G-Assist 可以评估玩家的系统配置和性能,并立即调整以获得最佳体验。

通过一个简单的提示,Project G-Assist 可以评估您的系统配置和性能,并立即进行调整以获得最佳体验。

AI 助手还能够跟踪并绘制帧率、功率使用、PC 延迟以及其他硬件统计数据的图表,并在被提示时提出改善这些指标的方法。

NVIDIA NIM 彻底改变了模型部署方式

现在,全球 2800 万开发者都可以借助 NVIDIA NIM 轻松地创建生成式 AI 应用。NIM 是一种推理微服务,通过以经过优化的容器的形式提供模型,以部署在云、数据中心或工作站上。

NIM 还能帮助企业实现基础设施投资的效果最大化。例如,与未使用 NIM 的情况相比,在 NIM 中运行 Meta Llama 3-8B 所能生成的加速基础设施 AI token 可以提升 3 倍。

Cadence、Cloudera、Cohesity、DataStax、NetApp、Scale AI 和新思科技等近 200 家技术合作伙伴正将 NIM 集成到他们的平台中,加快生成式 AI 部署到特定领域应用中的速度,例如 copilots、代码助手、数字人虚拟形象等。从 Meta Llama 3 开始,在 Hugging Face 上现已开始提供 NIM。

NVIDIA 机器人技术

NVIDIA 正在引领价值 50 万亿美元的工业数字化变革,其通过开发者计划提供对 NIM 的访问权限,以促进 AI 创新。

黄仁勋展示了 Foxconn 如何利用 NVIDIA Omniverse、Isaac 和 Metropolis 创建数字孪生,通过结合视觉 AI 与机器人开发工具来实现增强的机器人设施。

NVIDIA Isaac 平台为开发者构建 AI 机器人提供强大的套件,包括由 AI 模型以及 Jetson Orin、Thor 等超级计算机驱动的 AMR、工业机械臂和人形机器人。

「机器人和物理 AI 正在成为现实,而不仅是出现在科幻小说。这真的令人兴奋,」黄仁勋补充道。

全球电子行业领导企业正在将 NVIDIA 自主机器人技术集成到他们的工厂中,利用 Omniverse 中的模拟功能来测试和验证物理世界的新一代 AI。全球 500 多万台预编程机器人也在此行列中。

「机器人将遍布所有工厂。工厂将实现对机器人的统筹,而这些机器人将制造新的机器人产品,」黄仁勋解释道。

相关推荐
探索云原生2 天前
大模型推理指南:使用 vLLM 实现高效推理
ai·云原生·kubernetes·gpu·vllm
luoganttcc5 天前
开源科学工程技术软件介绍 – EDA工具KLayout
芯片
若石之上5 天前
DeepSpeed:PyTorch优化库,使模型分布式训练能高效使用内存和更快速
pytorch·内存·gpu·deepspeed·速度·zero
qiang426 天前
想租用显卡训练自己的网络?AutoDL保姆级使用教程(PyCharm版)
pycharm·gpu·autodl·租显卡
扫地的小何尚9 天前
NVIDIA RTX 系统上使用 llama.cpp 加速 LLM
人工智能·aigc·llama·gpu·nvidia·cuda·英伟达
布鲁格若门9 天前
AMD CPU下pytorch 多GPU运行卡死和死锁解决
人工智能·pytorch·python·nvidia
藓类少女9 天前
【深度学习】使用硬件加速模型训练速度
人工智能·深度学习·分布式训练·gpu
ice小游10 天前
使用ATmega328p芯片制作Arduino Uno R3开发板
嵌入式硬件·arduino·开发板·芯片·atmega328p
centurysee11 天前
【一文搞懂】GPU硬件拓扑与传输速度
gpu·nvidia