谷歌第八代 TPU 来了:性能提升 124%

前言

这几天 Google Cloud Next 大会上最炸圈的不是 Gemini 新版本,是两块芯片。

谷歌推出了 TPU8t(训练用)和 TPU8i(推理用),每瓦性能分别比上一代提升 124% 和 117%,TPU8i 每美元性能提升 80%。圈内人说了一句话:「如果对外出售,或将取代英伟达。」

本文从技术角度梳理这次 TPU 更新的核心变化,以及它对 AI 算力格局的影响。

适合谁看

  • 关注 AI 芯片技术方向的开发者
  • 需要选型云端 AI 算力的工程师
  • 想了解英伟达 GPU vs 谷歌 TPU 差异的读者

一、谷歌第八代 TPU 到底更新了什么

1.1 两款芯片的定位

型号 用途 每瓦性能提升 每美元性能提升
TPU8t AI 模型训练 +124% 未披露
TPU8i AI 模型推理 +117% +80%

TPU8t 和 TPU8i 是分开优化的产品。训练芯片追求绝对吞吐量,推理芯片更在意成本效率------这个设计逻辑和英伟达的 H100(训练)/ L40S(推理)分开产品线的思路是一样的。

1.2 TPU 和 GPU 的核心区别

很多人问:TPU 到底比 GPU 强在哪?

GPU 是通用并行计算单元,设计之初是为图形渲染,后来被 CUDA 生态绑定到 AI 计算上。

TPU(Tensor Processing Unit)是谷歌专门为矩阵运算设计的芯片,对 Transformer 架构的大模型有针对性优化:

复制代码
GPU(通用):
CUDA Core → 支持各类并行计算
优点:生态好,工具链成熟
缺点:通用设计带来的功耗偏高

TPU(专用):
TPU Core → 针对矩阵乘法(矩阵×矩阵)深度优化
优点:特定任务效率极高,功耗比更好
缺点:只能在谷歌云上用,生态相对封闭

1.3 124% 性能提升是怎么实现的

具体架构细节谷歌没有完全披露,但结合已知信息,主要来源于三个方向:

1. 内存带宽扩大:大模型推理的瓶颈常常不在算力,而在内存读取速度。第八代 TPU 进一步提升了 HBM(高带宽内存)的带宽。

2. 互连架构升级:多芯片协作时,数据传输效率提升了,理论峰值算力更容易被实际利用到。

3. 制程迭代:更先进的制程意味着同等功耗下,晶体管密度更高,运算能力更强。


二、对 AI 开发者意味着什么

2.1 Google Cloud 算力成本可能下降

TPU8i 每美元性能提升 80%,直接影响的是在 Google Cloud 上跑推理的成本。

如果你的业务在 GCP 上运行大模型推理(比如用 Vertex AI 调用 Gemini),这个提升意味着同样的预算能跑更多请求,或者同样的请求量花更少的钱。

2.2 自研芯片生态加速成形

谷歌不是唯一在做这件事的:

  • 亚马逊:Trainium2(训练)+ Inferentia3(推理)
  • 微软:Maia 2(与 OpenAI 联合使用)
  • 阿里:倚天 + 含光 910B
  • 百度:昆仑 3

云厂商都在绕过英伟达自研芯片,原因很直接:减少对英伟达的依赖,降低算力采购成本,掌握硬件层的主导权。

2.3 对框架和工具链的影响

目前 TPU 使用的主要是 JAX 框架(谷歌自家的),PyTorch XLA 也支持,但生态成熟度和 CUDA 没法比。

如果你的训练代码是 PyTorch 写的,迁移到 TPU 有一定门槛:

python

复制

复制代码
# PyTorch on GPU
device = torch.device("cuda")
model.to(device)

# PyTorch on TPU (需要 torch_xla)
import torch_xla.core.xla_model as xm
device = xm.xla_device()
model.to(device)
# 注意:TPU 上的调试比 GPU 更麻烦,建议先在 CPU 上跑通逻辑

主要坑点:

  • TPU 对动态计算图支持不好,最好用静态图
  • 部分 PyTorch 算子在 TPU 上没有原生实现,会 fallback 到 CPU
  • 数据加载管道需要重新优化,否则 TPU 会被饿到

三、英伟达真的会被取代吗

3.1 短期内不会

英伟达的护城河有三个:CUDA 生态、供应链、H100/H200/B200 的实际性能领先。

CUDA 是最难撼动的。过去十几年,PyTorch、TensorFlow 几乎所有的优化都是围绕 CUDA 做的。大量工程师的肌肉记忆、已有的代码库、成熟的调试工具------这些不是换一块更便宜的芯片就能解决的。

3.2 中长期有压力

但也要看清楚:

  • 推理侧的竞争比训练侧激烈得多。推理是高频、规模化的,成本敏感度更高。TPU8i 在推理成本上的优势,会推动更多企业在推理场景选择 GCP。
  • Transformer 之后的模型架构还在演变。如果未来主流架构对矩阵乘法的依赖度变化,通用 GPU 和专用 TPU 的优劣势也会重新洗牌。
  • 英伟达今年出货量受限(B200 供应紧张),云厂商自研芯片的替代压力在加大。

3.3 务实建议

如果你是开发者,现在不用急着迁移,但可以关注:

  • 你的业务推理成本是不是主要开销?如果是,Google Cloud TPU 值得评估
  • 你用的框架是不是 JAX?如果是,TPU 迁移成本很低
  • 你的模型规模多大?超大模型(千亿参数以上)TPU Pod 有优势

四、总结

这次谷歌第八代 TPU 的发布,几个核心要点:

  1. 性能提升明显:训练提升 124%,推理提升 117%,推理成本效率提升 80%
  2. 英伟达短期无忧:CUDA 生态护城河没那么容易突破
  3. 云厂商自研芯片大势所趋:谷歌、亚马逊、微软、阿里都在做,算力竞争从芯片本身延伸到了整个基础设施层
  4. 推理侧是主战场:成本敏感的推理场景,是 TPU 们最有机会的切入点

英伟达的王座还在,但坐得没之前稳了。

你的业务有考虑过 TPU 替代方案吗?或者在 GPU vs TPU 选型上有踩过什么坑?欢迎评论区交流。

相关推荐
带娃的IT创业者1 小时前
Claude Code Routines 深度解析:重新定义 AI 辅助编程的工作流自动化
运维·人工智能·自动化·ai编程·工作流·anthropic·claude code
冬至喵喵1 小时前
本体论在数仓 Data Agent 中的应用
人工智能
broadview_java1 小时前
搬瓦工修改SSH端口
运维·网络·ssh
Jmayday2 小时前
Pytorch:张量的操作
人工智能·pytorch·python
guslegend2 小时前
AI生图第3节:gpt-image-2的提示词反解析与Json结构化生图
人工智能·gpt·json
我是发哥哈2 小时前
主流AI视频生成方案商用化能力横向评测
大数据·人工智能·学习·机器学习·chatgpt·音视频
郭庆汝2 小时前
Qwen3-TTS语音设计,克隆与生成
人工智能·语音识别
_codemonster2 小时前
仿生相关知识点梳理
科技
一次旅行2 小时前
今日AI新闻简报
人工智能