一家独大的英伟达,把微软和 OpenAI 都逼得亲自下场造芯片了。也许 AI 芯片大战才刚刚拉开帷幕。
微软自研 AI 芯片,11 月上线!
知名外媒 The Information 独家爆料称,微软计划在下个月举行的年度开发者大会上,推出首款人工智能芯片。
同时,OpenAI 也在招聘能够帮助其评估和设计 AI 硬件的人员。
业内有一种说法,「卖 H100 比向沙漠里快要渴死的人卖水还要容易」。
不论是为了走出算力枯竭,更高效,低成本地开发自己的模型,还是为了摆脱被「利润率高达 1000%」的 H100 盘剥。
微软和 OpenAI 都在尝试「变硬」,努力戒掉对于英伟达的 GPU 依赖。
但是,根据业内人士爆料,英伟达对于已经推出自己芯片的公司,比如谷歌和亚马逊,会控制 GPU 的供给。
所以「芯片自研」的道路,是一个风险和收益都很高的选择,毕竟谁也不想未来被黄老板在 GPU 供给上进一步「卡脖子」。
微软自研 AI 芯片,追赶谷歌亚马逊
与英伟达的 GPU 类似,微软的芯片也是专为数据中心服务器设计,可用于训练和运行诸如 ChatGPT 这类的大语言模型。
目前,不管是为云客户提供先进的 LLM 支持,还是为自家的生产力应用提供 AI 功能,微软都需要依靠英伟达的 GPU 提供算力的加持。
而这款从 2019 年便开始研发的全新芯片,显然可以极大地减轻微软对英伟达 GPU 的依赖。
据知情人士称,微软和 OpenAI 组成的联合团队,现在已经在对其进行测试了。
相比起早早入局的竞争对手,微软直到 2019 年才开始 AI 芯片的研发。
也是同年,微软宣布将向 OpenAI 投资 10 亿美元,并要求他们必须使用微软的 Azure 云服务器。
然而,当微软开始与 OpenAI 进行更紧密地合作时发现,依靠购买 GPU 来支持这家初创公司、Azure 客户以及自家产品的成本,实在是太高了。
据知情人士透露,在开发 Athena 期间,微软为了满足 OpenAI 的需求,已经向英伟达订购了至少数十万块 GPU。
早在,今年 4 月,就有消息透露了这款代号为 Athena 的芯片的存在。
据称,微软希望这款代号为 Athena(雅典娜)芯片,能与一直供不应求的英伟达 H100 GPU 相媲美。
目前,亚马逊和谷歌已将人工智能芯片作为其云业务营销战略的重要组成部分。
其中,亚马逊在对 Anthropic 的投资中规定,对方需要使用亚马逊的 AI 芯片,即 Trainium 和 Inferentia。同时,谷歌云也表示,Midjourney 和 Character AI 等客户使用了自研的 TPU。
微软虽然还在讨论是否要向 Azure 云客户提供自研芯片,但该芯片在开发者大会上的首次亮相,可能预示着微软正在寻求吸引未来云客户的兴趣。
可以肯定的是,微软将借着 Athena 的推出,极大缩短与另外两家巨头的距离------谷歌和亚马逊早已在自家的云服务器上大规模采用了自研的芯片。
此外,为了摆脱英伟达的「卡脖子」,微软还在与 AMD 密切合作,开发即将推出的人工智能芯片 MI300X。
不过,微软和其他云服务提供商普遍表示,自己并没有停止从英伟达购买 GPU 的打算。
但如果他们能说服云客户更多地使用自研芯片,那么从长远来看,这可以极大地节省开支。同时,也能帮助他们在与英伟达的谈判中获得更多筹码。
OpenAI:这两家,我都不想要
对于 OpenAI 来说,能同时减少对微软和英伟达芯片的依赖,显然是最好的。
据 OpenAI 网站上的几则招聘信息显示,公司正在招聘能够帮助其评估和共同设计 AI 硬件的人员。
路透社也报道,OpenAI 正在计划下场生产自己的 AI 芯片。
此前,CEO Sam Altman 曾将获得更多 AI 芯片作为公司的首要任务。
一方面,OpenAI 所需的 GPU 十分短缺,另外,运行这些硬件时产生的成本「令人瞠目结舌」。
如果算力成本一直居高不下,长远来看于整个 AI 行业来说可能并不是一个好消息。
毕竟如果掘金的「铲子」卖的比金子本身都贵,那么还会有人去做挖金子的人吗?
根据 Stacy Rasgon 的分析,ChatGPT 每次查询大约需要 4 美分。如果 ChatGPT 的查询量增长到谷歌搜索规模的十分之一,那么就将需要价值约 481 亿美元的 GPU,并且每年需要价值约 160 亿美元的芯片来维持运行。
目前还不清楚 OpenAI 是否会推进定制芯片的计划。
据业内资深人士分析,这将是一项投资巨大的战略举措,其中每年的成本可能高达数亿美元。而且,即使 OpenAI 将资源投入到这项任务中,也不能保证成功。
除了完全的自研之外,还有一种选择是像亚马逊在 2015 年收购 Annapurna Labs 那样,收购一家芯片公司。
据一位知情人士透露,OpenAI 已经考虑过这条路,并对潜在的收购目标进行了尽职调查。
但即使 OpenAI 继续推进定制芯片计划(包括收购),这项工作也可能需要数年时间。在此期间,OpenAI 还是将依赖于英伟达和 AMD 等 GPU 供应商。
因为就算强如苹果,在 2007 年收购了 P.A. Semi 和 Intristy,到 2010 年推出第一款芯片 A4,也经历了 3 年的时间。
而 OpenAI,自己本身都还是一家初创公司,这个过程也许走得会更加艰难。
而且英伟达 GPU 最重要的护城河,就是它基于 CUDA 的软硬件生态的积累。
OpenAI 不但要能设计出性能上不落后的硬件,还要在软硬件协同方面赶超 CUDA,绝对不是一件容易的事情。
但是,另一方面,OpenAI 做芯片也有自己独特的优势。
OpenAI 要做的芯片,不需要向其他巨头推出的芯片一样,服务于整个 AI 行业。
他只需满足自己对模型训练的理解和需求,为自己定制化的设计一款 AI 芯片。
这和谷歌、亚马逊这种将自己的 AI 芯片放在云端提供给第三方使用的芯片会有很大的不同,因为几乎不用考虑兼容性的问题。
这样就能在设计层面让芯片能更高效地执行 Transformer 模型和相关的软件栈。
而且,OpenAI 在模型训练方面的领先优势和规划,能让它真正做到在未来把模型训练相关的硬件问题,用自己独家设计的芯片来解决。
不用担心自己的芯片在「满足自己需要」的性能上,相比与英伟达这样的行业巨头会有后发劣势。
都是成本的问题
设计自己的 AI 芯片,与英伟达直接「刚正面」如此之难,为什么巨头们还要纷纷下场?
最直接的原因就是,英伟达的 GPU 太贵了!
加上云提供商在中间还要再赚一笔。这样,包括 OpenAI 在内,使用英伟达 GPU + 云提供商的基础模型企业成本肯定居高不下。
有国外媒体算过这样一笔账:
现在,购买一个使用英伟达 H100 GPU 的人工智能训练集群,成本约为 10 亿美元,其 FP16 运算能力约为 20 exaflops(还不包括对矩阵乘法的稀疏性支持)。而在云上租用三年,则会使成本增加 2.5 倍。
这些成本包括了集群节点的网络、计算和本地存储,但不包括任何外部高容量和高性能文件系统存储。
购买一个基于 Hopper H100 的八 GPU 节点可能需要花费近 30 万美元,其中还包括 InfiniBand 网络(网卡、电缆和交换机)的分摊费用。
同样的八 GPU 节点,在 AWS 上按需租用的价格为 260 万美元,预留三年的价格为 110 万美元,在微软 Azure 和谷歌云上的价格可能也差不多。
因此,如果 OpenAI 能够以低于 50 万美元的单价(包括所有成本)构建系统,那么它的成本将减少一半以上,同时还能掌握自己的「算力自由」。
将这些费用削减一半,在投入资源不变的情况下,OpenAI 的模型规模就会扩大一倍;如果成本能够减少四分之三,则翻四倍。在模型规模每两到三个月翻倍的市场中,这一点非常重要。
所以长远来看,也许任何一个有野心的 AI 大模型公司,都不得不面对的一个最基本问题就是------如何尽可能的降低算力成本。
而摆脱「金铲子卖家」英伟达,使用自己的 GPU,永远都是最有效的方法。
网友热议
对于 OpenAI 和微软下场造 AI 芯片的做法,一些网友似乎持不同的意见,认为 AI 芯片是一个「陷阱」。
逼得 OpenAI 等模型公司造硬件,一个最大的原因是其他芯片公司完全不给力,英伟达几乎没有竞争。
如果 AI 芯片是一个竞争充分的市场,OpenAI 这类的公司就不会自己下场做 AI 芯片。
而有些想法更加激进的网友认为,大语言模型未来将集成到芯片当中,人类可以用自然语言和计算机直接对话。所以设计芯片是走到那一步的自然选择。
参考资料: