英伟达的「护城河」正在崩塌?谷歌TPU凭什么让巨头们疯狂倒戈?
谷歌这次要动真格了。
摩根士丹利最新研报透露了一个重磅消息:谷歌 TPU 的产能即将迎来爆炸式增长。更关键的是,供应链那边传来信号,TPU 供应的不确定性基本解决了,这意味着谷歌可以放开手脚对外卖芯片了。
摩根士丹利直接把预测往上猛调,2027 年 TPU 产量将达到 500 万块,2028 年更是要冲到 700 万块。要知道,之前的预测可是 300 万块和 320 万块,这波上调幅度分别高达 67% 和 120%。换句话说,未来两年谷歌要生产 1200 万块 TPU,而过去四年加起来才生产了 790 万块。
这笔生意有多赚?摩根士丹利给出一个测算,谷歌每卖出 50 万块 TPU 芯片,2027 年就能进账约 130 亿美元,每股收益增加 0.40 美元。
战略层面看,谷歌的打法也很明确,直接向第三方数据中心销售 TPU,作为谷歌云平台 (GCP) 业务的重要补充。虽然大部分 TPU 仍会用在谷歌自家的 AI 训练和云服务上,但如此大的产能储备,显然是在为更广泛的商业化做准备。
摩根士丹利认为,这些迹象都是谷歌 TPU 销售战略的早期信号。眼下全行业对先进 AI 算力需求爆棚,谷歌显然不想错过这波红利。
受 AI 芯片需求强劲的影响,摩根士丹利顺手把联发科评级上调至「增持」,理由是整个芯片供应链都在受益。
英伟达在 AI 芯片市场一家独大的格局,可能要迎来真正的挑战者了。

(动图来自博主赛博轩Albert)
最近,谷歌 TPU 与英伟达 GPU 的技术较量成为业内热议话题。我们关注到一篇题为《2025 年 AI 推理成本:谷歌 TPU 为何比英伟达 GPU 性能高出 4 倍》的报道,全面解析了两者的技术差异和性能对比。至于报道中的观点,仅供参考。
以下是机器之心编译:
在激烈的 AI 霸主之争中,英伟达长期以来一直稳坐霸主地位。其 GPU 推动了机器学习的爆炸式增长,将抽象的神经网络变为现实,并打造了一个价值数万亿美元的商业帝国。但随着 AI 格局的演变,英伟达的「盔甲」也开始出现裂痕。
从模型训练(英伟达的强项)到推理(即这些模型的实时应用),市场格局正在发生重塑。而引领这场变革的,正是谷歌的张量处理单元(TPU),它带来的无与伦比的效率和成本优势,或许将终结英伟达的垄断地位。
到 2030 年,推理将消耗 75% 的人工智能计算资源,创造一个规模达 2550 亿美元的市场,并以每年 19.2% 的速度增长。然而,大多数公司仍然以训练成本为优化目标。
这并非炒作,而是经济因素。训练是一次性的冲刺,而推理则是一场永无止境的马拉松。随着像 OpenAI 这样的公司疲于应对飞涨的推理成本(预计仅 2024 年就将达到 23 亿美元,远超训练 GPT-4 的 1.5 亿美元成本),谷歌的 TPU 凭借其高性价比脱颖而出。在这篇深度分析中,作者将探讨 TPU 如何赢得推理之战,并以行业领导者的实际迁移案例为佐证,同时解释为何这一转变预示着英伟达即将走向衰落。
AI 算力的分野:训练与推理
要了解正在发生的巨大转变,我们首先必须剖析人工智能计算的两大支柱:训练和推理。

训练:英伟达的巅峰之作
训练是将海量数据集输入神经网络,以「教会」它们模式、预测和行为的密集型过程。它需要大量的计算资源,需要数千个 GPU 进行并行处理,以完成矩阵乘法和反向传播等运算。英伟达正是凭借此建立了自己的帝国。其 CUDA 软件生态系统和 Hopper 架构(例如 H100 GPU)在处理这种高强度计算任务方面表现出色,从而实现了 GPT-4 和稳定扩散等突破性成果。
但训练是有限的,一旦模型被训练完成,繁重的工作就停止了。成本是前置的:单次运行可能消耗数百万 GPU 小时,但它是有限的。对于 GPT-4 来说,这笔一次性账单达到了 1.5 亿美元。英伟达的 GPU 凭借其在图形、模拟和通用计算方面的多功能性,成为这一阶段的首选。到 2023 年,英伟达控制了超过 80% 的 AI 芯片市场,仅数据中心销售就带来 600 亿美元的收入。
推理:永无止境的钱坑
推理则完全不同。这是部署阶段:每次 ChatGPT 查询、图像生成或推荐算法都会在新数据上运行已训练的模型。与训练不同,推理是持续进行的:处理的每一个 token、每一次用户交互、每一秒的操作都会产生成本。
接下来,残酷的数学计算将揭示真相。推理需求并非一次性的,而是随着使用量的增长而呈指数级增长。OpenAI 2024 年的推理支出飙升至 23 亿美元,是 GPT-4 训练成本的 15 倍。在全球范围内,随着 AI 集成到从自动驾驶汽车到个性化广告等各种应用中,机器学习推理成本正在爆炸式增长。分析师估计,到 2026 年,推理需求将比训练需求高出 118 倍。到 2030 年,推理计算可能占人工智能总计算量的 75%,从而推动 7 万亿美元的基础设施投资。
英伟达的 GPU 虽然针对训练的高吞吐量并行性进行了优化,但在这里表现不佳。它们会消耗大量的电力和内存来处理持续的查询,导致效率低下。进入推理时代:在未来,每次查询的成本至关重要。
谷歌的 TPU:专为推理时代而设计
谷歌并非偶然发现了 TPU。它为自身庞大的网络帝国精心打造了 TPU,为搜索、YouTube 推荐和全球规模的翻译服务提供强大支持。TPU 于 2016 年推出,是一种专用集成电路(ASIC),专为张量运算而设计,而张量运算正是人工智能的核心数学运算。
架构优势:为什么 TPU 能碾压推理

TPU 在流式阵列中表现出色,这种硬件网格能够高效地传输数据,无需频繁的内存读取,从而大幅降低延迟和能耗。而英伟达 GPU 则如同功能强大的瑞士军刀,能够即时解码指令,但这会增加额外的开销。对于推理任务而言,这意味着在 LLM 等工作负载下,TPU 的性价比是英伟达 H100 的四倍。谷歌最新的 Ironwood (v7) TPU 的速度是 v6 的四倍,峰值计算能力是 v5p 的十倍,每一代产品都能带来 2-3 倍的性价比提升。
能效是另一项杀手级优势。TPU 采用垂直供电设计,在执行搜索查询时比 GPU 节能 60-65%。在 MLPerf 基准测试中,TPU v5e 在 9 个推理类别中的 8 个类别中领先,例如 BERT 服务等任务的完成速度比 A100 GPU 快 2.8 倍。
价格是决定性因素,按需使用的 TPU v6e 起价为每小时 1.375 美元,签订长期合约后可降至每小时 0.55 美元,并且无需支付英伟达的授权费。用户反馈,一个 v5e 扩展舱相比八个 H100 扩展舱,「价格更低」,性价比更高。
2025 年 AI 芯片对比:TPU 与 GPU 正面交锋

英伟达优势逐渐消失
在纯粹的推理领域,英伟达的优势(灵活性)反而成了劣势。GPU 虽然能处理各种任务,但在非 AI 操作上却会浪费大量资源。随着推理逐渐占据主导地位,像 TPU 这样的专用 ASIC 芯片正在削弱英伟达的这一优势。谷歌云的高管们预计,仅 TPU 的采用就能占到英伟达 10% 的收入。英伟达的毛利率高达 70-80%,来自高效竞争对手的价格压力可能会挤压其利润空间。
ASIC 与 GPU 的 AI 之争:为什么专用芯片主导深度学习推理?

要理解为什么 TPU 正在瓦解英伟达的霸主地位,我们需要掌握 ASIC(专用集成电路)和 GPU(图形处理器)之间根本的架构差异。这不仅仅是技术细节的问题,而是决定数十亿美元计算支出成败的关键所在。
什么是 ASIC 芯片?它与 GPU 有何不同?
GPU 是通用型处理器。 最初设计用于图形渲染(因此得名「图形处理单元」),英伟达利用其并行处理能力,将其重新应用于人工智能领域。像 H100 这样的 GPU 包含数千个 CUDA 核心,可以处理各种工作负载:游戏、视频编码、科学模拟、加密货币挖矿,当然还有神经网络。这种多功能性使 GPU 成为人工智能早期时代的瑞士军刀。
专用集成电路(ASIC)是专业芯片。它们从一开始就为单一用途而设计, 牺牲灵活性以换取极高的效率。谷歌的 TPU 专为矩阵乘法和张量运算而硬编码,这是神经网络的数学基础。每个晶体管、每条电源轨、每条数据通路都针对一个目标进行优化,以闪电般的速度和最小的能量损耗完成张量运算。
不妨这样理解,GPU 就像一位多才多艺的运动员,精通多项运动;而 ASIC 则像一位奥运短跑运动员,在某一方面技高一筹。对于需要 24✖️7✖️365 全天候运行的推理工作负载,你需要的是这位短跑运动员。
ASIC 优势:为什么专业化能够规模化制胜?
能效方面: ASIC 芯片消除了指令解码的开销。GPU 动态地获取、解码和执行指令,消耗大量周期和电力。TPU 则在硬件中执行固定操作,在相同工作负载下能耗降低 60-65%。在数据中心规模下,这意味着节省数百万美元的电力成本并减少冷却基础设施。
降低延迟: TPU 中的脉动阵列可创建确定性的数据流,信息在芯片内同步流动,如同精心编排的装配线,而 GPU 依赖于具有不可预测访问模式的内存层次结构(L1/L2 缓存、HBM),从而引入延迟峰值。对于实时推理(聊天机器人、自动驾驶汽车、金融交易)而言,毫秒级的延迟至关重要。
每次操作成本: ASIC 通过去除未使用的电路,以更少的投入提供更高的计算能力。在 Transformer 型号上,TPU 的每美元性能是 H100 的四倍,因为每一平方毫米的硅片都物尽其用。GPU 则承载着诸多冗余:纹理单元、光栅化操作、显示控制器等等,所有这些在 AI 推理期间都处于闲置状态。
可扩展性: ASIC 可以紧密集成到定制系统中。谷歌的 TPU pod 通过定制互连连接 4096 个芯片,实现了 PCIe 受限 GPU 无法实现的近乎线性的扩展。这种架构上的自由度使超大规模数据中心能够构建完全符合自身需求的推理集群。
权衡取舍:灵活性与效率
ASIC 芯片并非万能,它们的专用性也是它们的局限性。训练新的模型架构、尝试新的层或运行非 AI 工作负载都需要 GPU 的灵活性。因此,未来并非「ASIC vs GPU」之争,而是战略部署:GPU 用于研究和训练,ASIC 用于生产推理。
新兴的 ASIC 芯片格局: 除了 TPU 之外,亚马逊的 Trainium、微软的 Maia 以及 Cerebras 和 Groq 等初创公司正以各种专用芯片涌入市场。每款芯片都针对特定的细分领域(LLM 推理、训练、稀疏模型),从而打破了曾经由英伟达统一的 CUDA 王国。
结论是什么?对于以推理为主导的未来(到 2030 年将占计算总量的 75%),ASIC 芯片不仅具有竞争力,而且势在必行。物理定律决定了这一点:大规模专业化是无法超越的。英伟达深谙此道,因此大力推进像 Blackwell 这样针对推理优化的架构,但他们试图让一把瑞士军刀比手术刀更锋利。
现实世界的胜利:AI 巨头押注 TPU
迁移案例就是最好的证明。全球顶尖的人工智能运营商正在放弃英伟达处理器,转而使用 TPU,从而大幅降低成本,并以前所未有的方式扩展推理能力。
Midjourney 的 65% 成本削减
图像生成器 Midjourney 曾是 GPU 的主力军,但在 2024 年转向 TPU 后,便再也没有回头。推理成本骤降 65%,从每月 200 万美元降至 70 万美元。根据 Cohere 的类似基准测试,使用 TPU v6e 后,生成任务的吞吐量提升了 3 倍。「TPU 在推理工作负载方面的经济效益」被证明具有变革性意义,释放了研发资金。
Anthropic 的百万 TPU 登月计划
Claude 的开发商 Anthropic 公司与谷歌达成了一项价值数百亿美元的交易,承诺提供多达一百万个 TPU。到 2026 年,这将释放超过 1GW 的计算容量,并将 TPU 与亚马逊 Trainium 和英伟达的相结合,构建多元化的技术栈。首席执行官 Thomas Kurian 表示,「卓越的性价比和效率」是促成此次交易的关键因素。自 2023 年以来,TPU 一直为 Claude 提供计算动力。
Meta 的数十亿美元转向
Meta 是英伟达最大的客户(计划 2025 年支出 720 亿美元),目前正就一项价值数十亿美元的 TPU 部署进行深入洽谈。Meta 计划从 2026 年通过谷歌云租赁 TPU 开始,并计划在 2027 年之前部署本地 TPU,用于 Llama 微调等需要大量张量的工作负载。这种混合策略(英伟达提供灵活性,TPU 提供效率)预示着更广泛的资源迁移趋势。
这些并非个例。Salesforce 和 Cohere 都实现了 3 倍的增长,谷歌的 Gemini 运行在数万个 TPU 上。那些精明的运营商纷纷抛售英伟达的溢价产品,转而选择谷歌的性价比更高的产品。
何时选择 TPU 与英伟达显卡:AI 基础设施的决策矩阵

选择 TPU 还是英伟达 GPU 并非非此即彼。这取决于您的工作负载、规模和基础架构策略。以下是一个基于实际部署的实用框架:
如果您符合以下条件,请选择 TPU:
成本阈值: 推理成本超过每月 5 万美元。在此规模下,TPU 节省的成本(40-65%)足以抵消迁移带来的额外开销。
工作负载适用性: 大规模运行 LLM 服务、推荐系统、图像生成或视频处理。这些张量密集型操作正是 TPU 的优势所在。
云平台部署: 熟悉 Google Cloud 生态系统或愿意采用 TensorFlow/JAX 框架。
可持续发展目标: 环境和能源效率是重中之重。TPU 的功耗比同等 GPU 配置低 60-65%,这对实现 ESG 目标至关重要。
可预测的扩展: 具有一致流量模式的大容量生产推理,而不是实验性研究。
如果您需要以下功能,请选择英伟达显卡:
训练灵活性: 构建自定义架构、多模态模型,或进行需要 CUDA 特定库和工具链的研究。
多云战略: 要求硬件能够在 AWS、Azure 和本地数据中心之间移植,且不受供应商锁定。
多样化的工作负载: 除了机器学习任务外,还可以运行图形渲染、模拟、游戏或非人工智能计算。
预算限制: 每月 AI 计算预算低于 2 万美元。设置开销和迁移成本使得 TPU 在小规模应用中不太划算。
前沿模型: 尝试使用尚未针对 TPU 编译进行优化或需要自定义内核的架构。
混合战略:企业行动指南
遵循 Meta 的模式:部署 Nvidia H100 用于训练、实验和模型开发,使用 TPU v6e/v7 进行生产推理服务。这种模式兼顾了灵活性和成本优化,在保持研究灵活性的同时,可节省 40-50% 的总计算资源。
实施时间表: 大规模 TPU 迁移预计需要 2-6 个月,包括代码库适配、测试和流量逐步转移。像 Midjourney 这样的公司通过降低成本,在 3-4 个月内即可实现投资回报。
未被定价的未来:推理的 75% 愿景与大规模 AI 的隐性成本
没人真正定价的是什么?推理的规模是无限的。训练只是一个里程碑,推理才是经济的命脉。每一次查询(每天数十亿次)都会持续增加成本。OpenAI 23 亿美元的账单,那只是 2024 年的费用;如果规模扩大到 2030 年占据 75% 的市场份额,那将是数万亿美元。
预测结果描绘出一幅鲜明的画面:
市场增长: 到 2030 年,人工智能推理市场规模将达到 2550 亿美元,复合年增长率达 19.2%。这将远远超过训练市场,后者随着基础模型的成熟而趋于平稳。
能源危机: 用于前沿模型的 5GW 集群,堪比小国的电网。随着推理集群的扩张,数据中心面临容量限制。
成本倍数: 训练基线成本为 15 倍,但实际使用量会进一步推高成本。每增加一个用户、每增加一项功能、每次实时交互都会增加费用。
总拥有成本 (TCO): 除了硬件成本外,还要考虑冷却、电力基础设施和碳信用额度。如果将这些运营成本考虑在内,TPU 的效率优势将提升至 2-3 倍。
未解决的问题:环境代价。推理的排放量可能远超训练。仅 ChatGPT 每年就排放 12800 公吨二氧化碳,是 GPT-3 训练的 25 倍。TPU 的效率(比上一代高出 15 倍)使谷歌成为可持续发展的选择,这在监管日益严格的今天至关重要。
深度学习推理优化的挑战不仅仅是技术性的,更是关乎企业生存的。忽视这一转变的公司将面临成本结构失衡的风险,导致无法大规模盈利。
对利益相关者的意义:TPU 革命的连锁反应

TPU 与 GPU 之争并非抽象概念,它重塑了整个商业模式、投资理念和职业发展轨迹。以下是不同参与者应该如何应对。
对于 AI 初创公司:大均衡化
TPU 降低了推理成本,使精简团队也能与巨头竞争。Midjourney 节省了 65% 的成本,从而延长了资金使用周期并加快了扩展速度。种子轮公司如果使用 TPU 进行推理,就能实现以往只有拥有巨额 GPU 预算的 B 轮及以后融资阶段的公司才能达到的成本结构。
审核您的推理费用。如果您每月在英伟达显卡上的支出超过 2 万美元,请开展 TPU 试点项目。TensorFlow 模型优化和 JAX 等工具可使迁移过程比以往任何时候都更加顺畅。
对于企业 CTO:战略必要性
15 倍的推理成本倍增效应要求我们现在就做出战略性的硬件选择,而不是以后。到 2026 年,将高容量推理迁移到 TPU 可以节省 40-60% 的计算预算,从而将资金用于创新而不是基础设施建设。
隐藏的好处: TPU 的低功耗可降低数据中心冷却成本 30-40%,同时满足预算和可持续性要求。
风险: 行动迟缓意味着竞争对手将获得成本优势,而且这种优势会逐季度累积。例如,竞争对手每年在推理方面节省 500 万美元,并将其重新投入到更优的模型中,从而导致差距不断扩大。
对于英伟达投资者:利润率压缩的威胁
尽管英伟达 2024 年数据中心业务营收预计将达到 600 亿美元,但 TPU 的普及应用却带来了长期的利润风险。如果谷歌能够占据哪怕 10% 的推理工作负载(考虑到目前的迁移情况,这还是保守估计),那么每年英伟达的利润就将面临超过 60 亿美元的损失。
对位: 英伟达的 Blackwell 架构 (预计 2025 年发布)承诺提升推理效率。然而,早期基准测试表明,在纯粹的大规模推理方面,TPU 仍保持着 2-3 倍的成本优势,这限制了 Blackwell 的影响。
密切关注英伟达 2026 年第一季度财报。如果推理驱动的收入环比增长放缓至 15% 以下,则表明 TPU 蚕食效应确实存在。
对于开发者和机器学习工程师:职业未来保障
CUDA 生态系统长达 15 年的护城河正在逐渐消失。随着 JAX、TensorFlow 和 TPU 优化技术的普及,学习这些技术能够确保职业发展的未来竞争力。2024 年,「TPU 优化工程师」的职位发布量同比增长了 340%。
技能转变: 从通用 GPU 编程转向 ASIC 感知模型设计。理解脉动阵列的编译器优化,其价值堪比 2020 年的 CUDA 内核调优。
机遇: 早期 TPU 专业知识可获得 20-30% 的薪资溢价,因为公司都在争相寻找人才来执行迁移。
华尔街的英伟达大撤退:为何精英投资者抛售 60 亿美元 GPU 股票

随着推理革命的加速,英伟达曾经不可撼动的统治地位正面临着华尔街最敏锐的投资者们的严峻现实检验,他们正悄然退出市场。
科技远见家彼得・蒂尔 (Peter Thiel) 旗下的对冲基金 Thiel Macro LLC 在 2025 年第三季度抛售了其持有的全部 537742 股英伟达股票(截至 9 月底,价值约 1 亿美元),并将所得资金重新投资于苹果和微软等更具防御性的股票,以应对日益增长的人工智能泡沫破裂的担忧。
这并非孤例。就在几周前,日本软银也抛售了其持有的全部 3210 万股股票,套现高达 58.3 亿美元,并将资金投入 OpenAI,以期从硬件炒作转向软件生态系统。就连预言了 2008 年金融危机的《大空头》预言家迈克尔・伯里,也在 2025 年末斥资 920 万美元买入了针对英伟达的看跌期权,押注随着 Meta 和 Oracle 等超大规模数据中心运营商面临数据中心过剩和 GPU 库存贬值的问题,英伟达的估值将会暴跌。
这些精英投资者并非放弃人工智能。他们只是在抛售英伟达高达 70 倍预期市盈率的股票,因为谷歌 TPU 的竞争日益激烈,以及随着训练阶段的辉煌逐渐褪去,推理成本不断攀升侵蚀利润率的担忧令他们感到不安。尽管英伟达盈利强劲,但其股价仍较 10 月份的高点下跌了 12%,机构投资者的资金外流也反映了科技行业的整体焦虑情绪。
这波超过 60 亿美元的资金外流凸显了一个残酷的现实:当推理运算的结果对 ASIC 芯片比对 GPU 芯片更有利时,即使是人工智能领域的巨头也不得不屈服于谨慎的资本外逃浪潮。
解码抛售潮:精明投资者看到的三个危险信号
供应过剩和贬值: 超大规模数据中心在 2023-2024 年间大量购入 H100 显卡,为训练数据激增而扩容,但这些激增并未完全实现。如今,数据中心使用的资产正在贬值(GPU 价值每年下降 30-40%),而推理需求却需要更便宜的 ASIC 芯片。这种供需不匹配令那些预期 GPU 将持续升级的成长型投资者感到恐慌。
利润率即将压缩: TPU 将主导推理任务(未来 75% 的计算量),这意味着英伟达必须在价格上展开竞争。其 70-80% 的毛利率将面临不可避免的挤压。即使毛利率下降 10 个百分点,也会使目前的估值倍数大幅下滑。
多元化现实: 像 Meta 这样的客户并没有完全放弃英伟达,但他们正在积极进行多元化投资。客户在 TPU 上的每一美元支出,都意味着英伟达少赚一美元。随着 Meta、Anthropic 和 Midjourney 等公司公开拥抱替代方案,英伟达的收入集中度风险已变得岌岌可危。
当然也有不同观点,英伟达仍然占据 80% 的市场份额,布莱克威尔即将加入,CUDA 的护城河也不会在一夜之间崩塌。
挑战与未来之路
TPU 并非完美无缺。与英伟达的 CUDA 通用性相比,其生态系统与 TensorFlow/JAX 的紧密联系限制了灵活性。扩展 TPU(最多可达 4096 个芯片)需要 Google Cloud 的投入,而本地部署的 TPU 市场尚处于起步阶段,混合架构将会持续存在:Nvidia 用于训练的极端情况,TPU 用于推理的大规模应用。
新兴竞争: 亚马逊的 Trainium 和微软的 Maia 芯片瞄准相似的细分市场,加剧了 ASIC 市场的碎片化。然而,这两款芯片的成熟度(已发展九代)和规模(为谷歌的万亿查询基础设施提供支持)都无法与 TPU 相提并论。
供应链: 谷歌与博通和台积电合作,加速 v7 芯片的生产,以解决产能问题。到 2026 年第二季度,TPU 的供应量应该能够满足需求,从而消除市场采用障碍。
目前的势头对谷歌有利。随着 v7 TPU 在 2025 年量产,以及博通 / 台积电等合作伙伴加速生产,供应链正在逐步完善。随着推理能力的激增,TPU 的应用也将随之扩展。
2025 年人工智能工作负载中 TPU 与 Nvidia GPU 的比较
对于所有人工智能工作负载,TPU 都比 Nvidia GPU 更好吗?
不。TPU 在推理和张量密集型操作方面表现出色,在运行 LLM、图像生成和推荐等模型时,性价比比 GPU 高出 4 倍。Nvidia GPU 在训练各种模型、需要灵活性的研究以及游戏、图形渲染和通用计算等非张量工作负载方面仍然更胜一筹。最佳策略通常是混合使用:TPU 用于生产推理,GPU 用于实验。
我可以在 Google Cloud 之外使用 TPU 吗?
目前,TPU 主要通过 Google Cloud Platform 提供,但大型企业客户(例如 Meta 的 2027 年计划)也开始采用本地部署方案。Nvidia 在 AWS、Azure 和本地部署方面的广泛可用性仍然是多云战略的优势。不过,Google 正在通过合作伙伴关系和托管选项来扩展 TPU 的访问权限。
英伟达的 Blackwell 芯片能否在推理方面与 TPU 展开竞争?
英伟达的 Blackwell 架构(预计 2025 年发布)承诺通过 FP4 精度和更高的内存带宽等特性来提升推理效率。然而,早期基准测试和架构分析表明,由于 ASIC 芯片的专用性,TPU 在大规模纯推理方面仍保持着 2-3 倍的成本优势。Blackwell 架构将比 Hopper(H100)更具竞争力,但可能无法完全弥补在高容量推理工作负载方面的差距。
从英伟达平台迁移到 TPU 的成本和时间是多少?
迁移需要将代码从 CUDA/PyTorch 适配到 TensorFlow/JAX,大型部署通常需要 2-6 个月,具体时间取决于模型复杂度。成本包括工程时间(大型迁移需要 4-8 个全职员工月)以及过渡期间的并行基础设施。然而,像 Midjourney 这样的公司可以通过持续节省 40-65% 的成本,在 3-4 个月内收回这些成本。规模较小的项目(每月推理成本低于 5 万美元)可能不值得投入这些额外费用。
TPU 如何处理自定义 AI 模型和架构?
TPU 在标准架构(Transformer、CNN、RNN)上表现出色,但对于自定义操作则需要重新编译。JAX 的 XLA 编译器可以自动处理大多数情况,但对于特殊架构可能需要优化。英伟达的 CUDA 为实验性工作提供了更大的灵活性。最佳实践:先在 GPU 上进行原型设计,待架构稳定后再针对 TPU 优化生产模型。
那么,像 AMD 或 Intel 芯片这样的 GPU 替代方案,用于人工智能推理又如何呢?
AMD 的 MI300 和英特尔的 Gaudi 芯片面向相似的市场,但在生态系统成熟度和规模化应用方面略逊一筹。AMD 的产品相比英伟达的产品可节省 30-40% 的成本,但其效率仍不及 TPU。英特尔的 Gaudi 芯片展现出一定的潜力,但目前量产部署有限。展望 2025-2026 年,TPU 仍然是推理优化领域相对于英伟达的最佳选择,其他方案则作为备选。
结论:TPU 驱动的人工智能世界即将到来
英伟达凭借训练技术的辉煌历史建立起了庞大的计算帝国,但推理才是未来,在这个领域,英伟达的架构优势正在逐渐消失。谷歌的 TPU 拥有四倍的性价比,正吸引着 Midjourney(成本降低 65%)、Anthropic(100 万颗芯片)和 Meta(数十亿美元的谈判)等巨头。
参考链接: