微软正式宣布其首款人工智能芯片 Maia 100 及基于 Arm 的通用计算芯片 Cobalt 100

复制代码

微软确认了此前的传闻:该公司已自主开发了 AI 芯片,旨在训练大型语言模型,减少对 Nvidia 的依赖 。此外,微软还研制了自家的基于 Arm 架构的 CPU,专为云计算工作负载设计。这两款定制硅芯片旨在为其 Azure 数据中心提供动力,为公司及其企业客户迎接充满 AI 的未来做好准备。

微软 Azure 硬件系统及基础设施部门负责人 Rani Borkar 在接受 The Verge 采访时解释道:「微软实际上在芯片开发方面拥有悠久的历史。」微软曾与 Xbox 合作开发芯片,且为其 Surface 设备共同设计过芯片。「这些努力都是基于那些经验。」她说。

Azure Maia AI 芯片和 Azure CobAlt CPU 都是微软内部研发的,结合了对整个云服务器堆栈的深度改造,以优化性能、功率和成本。「我们正在为 AI 时代重新思考云基础设施,并优化基础设施的每一层。」Borkar 表示。

**Azure CobAlt CPU,以蓝色颜料命名,是一款 128 核心的芯片,基于 Arm Neoverse css 设计并为微软量身定制。**它旨在为 Azure 上的一般云服务提供动力。「我们不仅考虑了性能,还特别注重功率管理。」Borkar 解释说。「我们做了一些非常有意图的设计选择,包括控制每个核心和每个虚拟机的性能和功耗。」

微软目前正在对如 Microsoft Teams 和 SQL 服务器等工作负载进行 CobAlt CPU 的测试,并计划明年为客户提供多种工作负载的虚拟机。虽然 Borkar 并未直接与亚马逊在 AWS 上提供的 Graviton 3 服务器进行比较,但在性能上应有显著提升。「我们的初步测试表明,性能比目前我们数据中心使用的商用 Arm 服务器高出 40%。」Borkar 表示。微软尚未公布完整的系统规格或基准测试。

**名为 Maia 100 的 AI 加速器芯片,以明亮的蓝色恒星命名,专为运行云 AI 工作负载而设计,如大型语言模型的训练和推理。它将用于为微软在 Azure 上的一些最大的 AI 工作负载提供动力,包括与 OpenAI 合作的数十亿美元合作项目。**微软一直与 OpenAI 合作,参与 Maia 的设计和测试阶段。

「当微软首次与我们分享 Maia 芯片的设计时,我们很兴奋,并与他们合作对其进行了细化和测试。」OpenAI 首席执行官 Sam Altman 说。「Azure 从头到尾的 AI 架构,现在通过 Maia 优化至芯片层面,为训练更强大的模型并降低客户成本铺平了道路。」

Maia 采用 5 纳米 TSMC 工艺制造,拥有 1050 亿晶体管,比 AMD 自家的 Nvidia 竞争对手 MI300X AI GPU的 1530 亿晶体管少约 30%。「Maia 支持我们首次实现的 8 位以下数据类型,MX 数据类型,以实现硬件和软件的共同设计。」Borkar 说。「这有助于我们支持更快的模型训练和推理时间。」

微软是包括 AMD、Arm、Intel、Meta、Nvidia 和高通在内的一群公司的成员,这些公司正致力于为 AI 模型标准化下一代数据格式。微软正在基于开放计算项目(OCP)的协作和开放工作,调整整个系统以满足 AI 的需求。

**「Maia 是微软首次完全自主研发的液冷服务器处理器。」**Borkar 透露。「这里的目标是在更高效率下实现服务器的更高密度。因为我们正在重新构想整个堆栈,所以我们有意思地考虑了每一层,因此这些系统实际上将适应我们当前的数据中心足迹。」

**对于微软来说,关键是在不必在全球数据中心腾出空间的情况下,更快地启动这些 AI 服务器。微软设计了一个独特的机架来容纳 Maia 服务器板,**其中包括一个「副驾驶」液体冷却器,就像你在汽车或豪华游戏 PC 中找到的散热器一样,用来冷却 Maia 芯片的表面。

除了分享 MX 数据类型,微软还与其合作伙伴分享了其机架设计,以便他们在其他芯片内部的系统上使用。但 Maia 芯片设计不会被更广泛地共享,微软将其保留在内部

**Maia 100 目前正在 GPT 3.5 Turbo 上进行测试,这是驱动 ChatGPT、Bing AI 工作负载和 GitHub Copilot 的同一模型。**微软正处于部署的早期阶段,就像 CobAlt 一样,目前还不愿公布 Maia 的具体规格或性能基准。

这使得很难准确判断 Maia 与 Nvidia 流行的 H100 GPU、最近宣布的 H200 或甚至 AMD 最新的 MI300X 相比如何。Borkar 不愿讨论比较,而是重申 Nvidia 和 AMD 与 Azure AI 云未来的伙伴关系仍然非常关键。「在云计算的规模下,优化和整合堆栈的每一层,以最大化性能,多样化供应链,坦率地说,为我们的客户提供基础设施选择非常重要。」Borkar 说。

供应链的多样化对微软来说很重要,尤其是在 Nvidia 目前是 AI 服务器芯片的主要供应商,公司一直在争相购买这些芯片的情况下。**据估计,OpenAI 为商业化 ChatGPT 需要超过 3 万颗 Nvidia 的旧款 A100 GPU,因此微软自己的芯片可能有助于降低其客户的 AI 成本。**微软还为其自家 Azure 云工作负载开发了这些芯片,而不是像 Nvidia、AMD、Intel 和高通那样出售给他人。

「我更多地将这看作是补充,而不是与他们竞争。」Borkar 坚持说。「我们今天在云计算中既有 Intel 也有 AMD,同样在 AI 上,我们宣布了采用 AMD,而我们今天已经有 Nvidia。这些伙伴对我们的基础设施非常重要,我们真的想给我们的客户提供选择。」

你可能已经注意到了 Maia 100 和 CobAlt 100 的命名,这表明微软已经在设计这些芯片的第二代版本。Borkar 表示:「这是一个系列,不仅仅只有 100 而已... 但我们不会分享我们的路线图。」目前还不清楚微软将以多快的频率推出新版 Maia 和 CobAlt,但考虑到人工智能的发展速度,我对于看到类似 Nvidia H200 公告(大约 20 个月)时 Maia 100 后继者问世并不感到意外。

**现在关键是微软如何迅速让 Maia 投入使用,加快实现其广泛人工智能目标,并且这些芯片将如何影响使用 AI 云服务的定价。**微软暂时还没有准备好谈论这种新服务器定价,但我们已经看到该公司悄然推出了每用户每月 30 美元的 Microsoft 365 Copilot 高级版。

目前 Copilot for Microsoft 365 仅限于微软最大客户使用,企业用户必须至少承诺 300 个用户才能进入其新型 AI 助手名单。随着微软本周继续推出更多 Copilot 功能和 Bing Chat 改版计划,Maia 可能很快就能帮助平衡支持这些新体验所需求的 AI 芯片需求量。

相关推荐
江_小_白27 分钟前
自动驾驶之激光雷达
人工智能·机器学习·自动驾驶
yusaisai大鱼2 小时前
TensorFlow如何调用GPU?
人工智能·tensorflow
珠海新立电子科技有限公司4 小时前
FPC柔性线路板与智能生活的融合
人工智能·生活·制造
IT古董4 小时前
【机器学习】机器学习中用到的高等数学知识-8. 图论 (Graph Theory)
人工智能·机器学习·图论
曼城周杰伦5 小时前
自然语言处理:第六十三章 阿里Qwen2 & 2.5系列
人工智能·阿里云·语言模型·自然语言处理·chatgpt·nlp·gpt-3
余炜yw5 小时前
【LSTM实战】跨越千年,赋诗成文:用LSTM重现唐诗的韵律与情感
人工智能·rnn·深度学习
莫叫石榴姐6 小时前
数据科学与SQL:组距分组分析 | 区间分布问题
大数据·人工智能·sql·深度学习·算法·机器学习·数据挖掘
如若1236 小时前
利用 `OpenCV` 和 `Matplotlib` 库进行图像读取、颜色空间转换、掩膜创建、颜色替换
人工智能·opencv·matplotlib
YRr YRr6 小时前
深度学习:神经网络中的损失函数的使用
人工智能·深度学习·神经网络
ChaseDreamRunner6 小时前
迁移学习理论与应用
人工智能·机器学习·迁移学习