黄仁勋:我们需要更大的GPU……一个非常非常大的GPU!

在暖场环节,一段命名为"活的艺术(Living Art)"的视频让全场鸦雀无声,在AI生成的实时数据雕塑面前,整个硅谷都在屏息以待,直到穿着皮夹克的英伟达创始人&CEO黄仁勋走上Keynote的舞台。

时隔5年,在硅谷的心脏地带圣何塞(San Jose),英伟达的盛会GTC(GPU Technology Conference)终于回归了线下。2020---2023年的GTC都是线上形式,此次回归线下,东道主英伟达的地位和2019年时已不可同日而语。

原本是最擅长digital(数字)的盛会,却吸引了大量真实参会者远道而来。大约有22000人线下参会,他们是AI创业者、开发者、大厂从业者、科学家、投资人,也是英伟达的客户、合作伙伴或股票持有者。据说,仅中国客户就有超过800名飞来参会,圣何塞的酒店价格一时飚至平时的4---5倍。

GTC2024将在3月18---21日期间提供超过900场会议,其重要性似乎已超过苹果、微软、谷歌的开发者大会和产品发布活动,成为公认的"AI风向标"。这场"AI的伍德斯托克",正在构建着最绚烂的集体想象:

越来越多人相信,这个世界已经跨过了由 AI 定义的临界点(tipping point)------所有人凑在这里寻找任何可能的未来脉络,借此判断通用人工智能的走向。

每次GTC,黄仁勋的Keynote都是点睛之笔。这一次,人们在圣何塞的大太阳下站了两个半小时,队伍排出了 1 公里。

2023年的GTC,黄仁勋说出了那句"The iPhone moment of AI has started(AI的iPhone 时刻已经到来)"。

2024年的GTC,黄仁勋继续说出一系列让世界振聋发聩的句子,比如**"The future is generative(未来是生成的)"。**

这一次GTC黄仁勋主要发布了5个点:

  • 第一,再一次强调,生成式AI是一次新的产业革命;

  • 第二,发布地表最强GPU Blackwell B200,以及GB200组合芯片;

  • 第三,发布新的软件产品NIM;

  • 第四,发布定制模型开发软件Nemo,以及AI工厂;

  • 第五,发布数字孪生产品Omniverse Cloud以及机器人平台Isaac。

英伟达被推到今天的历史地位,是因为英伟达的迭代速度,某种程度上决定了整个AI技术的发展和AI应用的爆发速度。

自2012年前后研究者发现GPU更适合AI研究后,英伟达逐渐成为最大的赢家。如今,英伟达几乎支撑了整个AI领域的研发。根据富国银行统计,英伟达目前在数据中心AI市场拥有98%的市场份额,而AMD仅有1.2%的市场份额,英特尔则只有不到1%。英伟达的业绩就如同一面镜子,实时映照外界对AI行业发展的信心。而2024年初至今,一季度还没过完,英伟达股价就涨了80%。

在今天的发布会后,福布斯称:"++任何一直想知道英伟达是否会失去竞争优势的人都应该放心,该领导者将继续保持领先地位++。"

整整两小时的演讲,黄仁勋用简洁明了的语言描绘出了一个每个人都能参与的科技"伊甸园",风采似乎超过了当年聚光灯下的乔布斯。作为英伟达的绝对"灵魂",公司员工们喜欢亲切地称他为Jensen或老黄。

**"这个公司没有老黄就完蛋了,"**英伟达的一位中国高管说,"老黄很真诚、很直接、很善良,也很严格。"

所有目光都集中在舞台上, 人们需要一个人物、一场事件、一个符号,来完成这场对当下和未来的想象力宣泄------而老黄无疑就是那个符号。

正如会场入口大标语写着的老黄语录:GTC的存在,是为了激发这个世界的艺术------一种名为可能性的艺术(GTC exists to inspire the world on the art-of-the-possible)。

以下是老黄keynote的重点内容。

1.老黄的"加速计算"新产业

黄仁勋一开场先做了英伟达的历史回顾与产业科普,试图论证生成式AI是一次新的生产力革命。

他提到了英伟达发展史上的几个里程碑事件,比如1993年英伟达成立,2006年研发CUDA,以及2012年的AlexNet构成的人与AI的"第一次接触(first contact)"。

黄仁勋又提起了去年在GTC上提到的往事。2016年,黄仁勋将首台超级计算机DGX-1(8个GPU首次连接在一起)交付给了位于旧金山的一家初创公司------OpenAI。此后,命运的齿轮开始转动。2017年,Transformer发布。2022年,ChatGPT捕捉了世界的想象,让人们意识到人工智能的重要性和能力。

"A new industry has emerged(一个新的产业出现了)."黄仁勋说。

黄仁勋表示英伟达的部分合作伙伴加入了英伟达"将世界带入加速计算"的"旅程",如Synopsis、Cadence和ANSYS等。同时英伟达宣布了晶圆厂TSMC和EDA解决方案供应商Synopsys将在生产中使用英伟达的计算光刻平台。

黄仁勋举了一个例子来解释人工智能如何帮助EDA厂商设计芯片。

"我们正加速发展CAE、EDA和SDA领域,通过数字孪生构建未来。"他在演讲中提到,"这些技术将整合进Omniverse,成为数字孪生的核心平台。"

2.地表最强GPU Blackwell B200发布

"We need Bigger GPUs... A very very big GPU ! (我们需要更大的GPU...... 一个非常非常大的GPU!)"黄仁勋说。

然后他推出了最新的Blackwell B200 GPU,并称其为"世界上最强大的人工智能芯片"。

"Blackwell"是以美国统计学家和数学家David Blackwell命名的。他从事博弈论、概率论和信息论等研究,撰写了第一本有关贝叶斯统计的教科书。

新的B200 GPU有2080亿个晶体管,提供高达20 petaflops的FP4算力。将其中两个GPU与单个Grace CPU相结合的GB200,可以为LLM推理工作负载提供30倍的性能,同时还可以大幅提升效率。黄仁勋表示,与H100相比,它"可将成本和能耗降低多达25倍"。

黄仁勋表示,训练一个1.8万亿参数的大模型,之前需要8000个Hopper GPU和15兆瓦的功率。如今,2000个Blackwell GPU就可以做到这一点,而功耗仅为4兆瓦。

在具有1750亿个参数的GPT-3 LLM基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。

GB200由两个 GPU、一个 CPU、一块主板构成

B200的其中一个关键改进是第二代Transformer引擎。它通过为每个神经元使用4位而不是8位,使计算、带宽和模型大小加倍。当连接大量此类GPU时,会出现第二个关键区别:下一代NVLink交换机可让576个GPU相互通信,具有每秒1.8TB的双向带宽。

黄仁勋表示,这需要英伟达打造一款全新的网络交换芯片,该芯片拥有500亿个晶体管和一些自己的板载计算能力:3.6teraflops的FP8。

GH200服务器以及数据中心是一个庞然大物。GB200 NVL72将36个CPU和72个GPU插入一个液冷机架中,AI训练性能达到720 petaflops,AI推理性能达到1440petaflops(又名1.4exaflops)。它内部有近两英里长的电缆,共有5000根单独的电缆。

GB200 NVL72

机架中的每个托盘包含两个GB200芯片或两个NVLink交换机,每个机架有18个GB200 芯片和9个NVLink交换机。其中一个机架总共可以支持27万亿个参数模型。据传GPT-4大约有1.7万亿参数模型。

GB200不缺客户。黄仁勋表示,亚马逊、谷歌、微软和甲骨文都已经计划在其云服务产品中提供NVL72机架。

英伟达也可以提供更多的解决方案。这是适用于DGX GB200的 DGX Superpod,它将八个系统合二为一,总共288个CPU、576 个GPU、240TB内存和11.5 exaflops的FP4计算。

黄仁勋表示,其系统可以扩展到数万个GB200超级芯片,并通过新的Quantum-X800 InfiniBand(最多144个连接)或Spectrum-X800以太网(最多64个连接)与800Gbps网络连接在一起。

3.AI行业的"台积电"

如果将英伟达定义成硬件公司或GPU公司,是对英伟达最大的误解。实际上,英伟达很早就开始转型为一家软硬件一体的公司,而且其软件产品在不断增强。

在去年GTC上,英伟达推出了DGX-Cloud、NVIDIA AI Enterprise 5.0等一系列软件产品。

就像台积电为芯片行业制造芯片,英伟达最新的定位,是成为 AI 行业的台积电。

今天,英伟达又推出了一系列软件产品------数十种企业级生成式AI微服务,企业可以使用这些服务在自己的平台上创建和部署自定义应用程序,同时保留对其知识产权的完全所有权和控制权。

这些云原生的微服务构建于NVIDIA CUDA平台之上 ,其中 NVIDIA NIM 是今天最新发布的产品,可对来自英伟达及其合作伙伴生态系统的20多个主流的 AI 模型进行优化推理。

NIM微服务提供由英伟达推理软件(包括Triton Inference Server和TensorRT-LLM)驱动的预构建容器,使开发者能够将部署时间从周缩短至分钟。

它们为语言、语音和药物发现等领域提供行业标准API,使开发者能够使用其托管在自身安全基础设施中的专有数据快速构建AI应用程序。这些应用程序可以根据需求进行扩展,为在英伟达加速计算平台上生产运行生成性AI提供灵活性和性能。

此外,英伟达加速的软件开发工具包、库和工具现在可以作为NVIDIA CUDA-X微服务访问,用于检索增强生成(RAG)、防护栏、数据处理、高性能计算(HPC)等。

英伟达还单独宣布了二十多个医疗保健NIM和CUDA-X微服务。

这些精心挑选的微服务为英伟达的全栈计算平台增加了一个新层次。这个层次将模型开发者、平台提供商和企业的AI生态系统连接起来,提供了一个标准化的路径来运行为NVIDIA CUDA安装基础的数亿GPU优化的定制AI模型,这些GPU分布在云、数据中心、工作站和PC上。

在NVIDIA AI Enterprise 5.0中首批使用新的生成性AI微服务的包括领先的应用、数据和网络安全平台提供商,如Adobe、Cadence、CrowdStrike、Getty Images、SAP、ServiceNow和Shutterstock。

"成熟的企业平台坐拥一座数据金矿,这些数据可以转化为生成性AI副驾驶,"黄仁勋表示,"这些容器化的AI微服务是我们与合作伙伴生态系统共同创造的,它们是各行各业企业成为AI公司的构建模块。"

英伟达即将推出的其他NVIDIA NeMo微服务用于定制模型开发。

这些包括用于构建干净数据集进行训练和检索的NVIDIA NeMo Curator,用于使用特定领域数据微调LLM的NVIDIA NeMo Customizer,用于分析AI模型性能的NVIDIA NeMo Evaluator,以及用于LLM的NVIDIA NeMo Guardrails。

Box、Cloudera、Cohesity、Datastax、Dropbox和NetApp在内的顶级数据平台提供商正在与NVIDIA微服务合作,帮助客户优化他们的RAG管道,并将他们的专有数据集成到生成性AI应用程序中。Snowflake利用NeMo Retriever利用企业数据构建AI应用程序。

英伟达微服务还支持超过400个英伟达认证系统,包括来自Cisco、Dell Technologies、Hewlett Packard Enterprise(HPE)、HP、Lenovo和Supermicro的服务器和工作站。此外,HPE今日宣布了HPE的企业计算解决方案用于生成性AI,计划将NIM和英伟达AI基础模型集成到HPE的AI软件中。

英伟达的数百个AI和MLOps合作伙伴生态系统,包括Abridge、Anyscale、Dataiku、DataRobot、Glean、H2O.ai、Securiti AI、Scale.ai、OctoAI和Weights & Biases,正在通过NVIDIA AI Enterprise为英伟达微服务添加支持。

Apache Lucene、Datastax、Faiss、Kinetica、Milvus、Redis和Weaviate是与NVIDIA NeMo Retriever微服务合作的向量搜索提供商,为企业提供响应灵敏的RAG能力。

4.AI进入物理世界

英伟达的压轴产品发布,是AI在物理世界的落地,英伟达将数字孪生与实时AI相结合 以实现工业自动化。

黄仁勋展示了开发人员如何使用数字孪生完全在模拟中开发、测试和完善其大规模实时人工智能,然后再将其推广到工业基础设施中,从而节省大量时间和成本。

NVIDIA Omniverse、Metropolis、Isaac和cuOpt在AI产线中相互作用,开发者可以在这里训练AI代理,帮助机器人和人类导航不可预测或复杂的事件。

英伟达带来了两项重要产品:数字孪生云Omniverse Cloud以及机器人平台Isaac。

英伟达Omniverse是一个由API、服务和软件开发工具包(SDK)组成的平台,支持开发人员为工业数字化构建生成式AI支持的工具、应用和服务。

英伟达Omniverse Cloud API是一组简单的API,允许开发人员将Omniverse技术直接集成到其现有的数字孪生软件应用程序中,或集成到其用于测试和验证机器人或自动驾驶车辆等自动机器的模拟工作流中。这并不与去年Omniverse宣布的云平台即服务(PaaS)相混淆,PaaS是一种用于开发和部署基于Omniverse Kit的应用程序的完全托管服务。

黄仁勋表示:"制造的所有产品都将拥有数字孪生。Omniverse是用于构建和操作物理上真实的数字孪生的操作系统。Omniverse和生成式AI是实现50万亿美元重工业市场数字化的基础技术。"

目前,Ansys、Cadence、Hexagon、微软、罗克韦尔自动化、西门子、Trimble都在采用Omniverse技术来帮助客户设计、模拟、构建和操作基于物理的数字孪生。

而且,黄仁勋还宣布,Omniverse Cloud今天可以连接到苹果公司的Vision Pro。

英伟达带来了第二款 AI 进入物理世界的产品是机器人平台Isaac。

NVIDIA Isaac机器人平台正在利用最新的生成式AI和先进的模拟技术来加速AI机器人技术。

在今天的GTC上,英伟达发布了Isaac Manipulator和Isaac Perceptor------一系列基础模型、机器人工具和GPU加速库。

在台上,黄仁勋在超过10000名观众面前演示了GR00T项目,该项目代表Generalist Robot 00 Technology,这是一种用于人形机器人学习的通用基础模型。GR00T项目利用NVIDIA Isaac机器人平台的各种工具为人形机器人创建AI。

"为通用人形机器人构建基础模型是当今人工智能领域最令人兴奋的问题之一,"黄说。"这些使能技术正在汇聚在一起,让世界各地领先的机器人专家在人工通用机器人领域取得巨大飞跃。"

英伟达还发布了一款基于NVIDIA Thor片上系统的新型人形机器人计算机,以及适用于NVIDIA Isaac机器人平台的新工具,包括用于机器人学习的Isaac Lab和用于混合云工作流程编排的NVIDIA OSMO,这些工具包括:在GR00T项目和机器人基础模型的开发中发挥了重要作用。

相关推荐
扫地的小何尚5 天前
什么是大型语言模型
人工智能·语言模型·自然语言处理·机器人·gpu·nvidia
点云兔子7 天前
NX系列-使用 `nmcli` 命令创建 Wi-Fi 热点并设置固定 IP 地址
wifi·ip·nvidia·nx·hotspot·nano
self-motivation10 天前
gpu硬件架构
硬件架构·gpu·nvidia·tensor·cuda
程序员非鱼15 天前
深入解析神经网络的GPU显存占用与优化
人工智能·深度学习·神经网络·机器学习·nvidia·cuda
MemVerge25 天前
MemVerge与美光科技利用CXL®内存提升NVIDIA GPU利用率
科技·gpu·cxl·英伟达
扫地的小何尚1 个月前
NVIDIA RTX 系统上使用 llama.cpp 加速 LLM
人工智能·aigc·llama·gpu·nvidia·cuda·英伟达
布鲁格若门1 个月前
AMD CPU下pytorch 多GPU运行卡死和死锁解决
人工智能·pytorch·python·nvidia
centurysee1 个月前
【一文搞懂】GPU硬件拓扑与传输速度
gpu·nvidia
算家云2 个月前
moffee模型部署教程
人工智能·python·github·markdown·nvidia·ppt·幻灯片制作
神州问学2 个月前
英伟达 GPU 架构:演进与模型推理速度的深度关联
人工智能·芯片·英伟达