谷歌第八代 TPU 来了：性能提升 124%

前言

这几天 Google Cloud Next 大会上最炸圈的不是 Gemini 新版本，是两块芯片。

谷歌推出了 TPU8t（训练用）和 TPU8i（推理用），每瓦性能分别比上一代提升 124% 和 117%，TPU8i 每美元性能提升 80%。圈内人说了一句话：「如果对外出售，或将取代英伟达。」

本文从技术角度梳理这次 TPU 更新的核心变化，以及它对 AI 算力格局的影响。

适合谁看：

关注 AI 芯片技术方向的开发者
需要选型云端 AI 算力的工程师
想了解英伟达 GPU vs 谷歌 TPU 差异的读者

一、谷歌第八代 TPU 到底更新了什么

1.1 两款芯片的定位

型号	用途	每瓦性能提升	每美元性能提升
TPU8t	AI 模型训练	+124%	未披露
TPU8i	AI 模型推理	+117%	+80%

TPU8t 和 TPU8i 是分开优化的产品。训练芯片追求绝对吞吐量，推理芯片更在意成本效率------这个设计逻辑和英伟达的 H100（训练）/ L40S（推理）分开产品线的思路是一样的。

1.2 TPU 和 GPU 的核心区别

很多人问：TPU 到底比 GPU 强在哪？

GPU 是通用并行计算单元，设计之初是为图形渲染，后来被 CUDA 生态绑定到 AI 计算上。

TPU（Tensor Processing Unit）是谷歌专门为矩阵运算设计的芯片，对 Transformer 架构的大模型有针对性优化：

复制代码

GPU（通用）：
CUDA Core → 支持各类并行计算
优点：生态好，工具链成熟
缺点：通用设计带来的功耗偏高

TPU（专用）：
TPU Core → 针对矩阵乘法（矩阵×矩阵）深度优化
优点：特定任务效率极高，功耗比更好
缺点：只能在谷歌云上用，生态相对封闭

1.3 124% 性能提升是怎么实现的

具体架构细节谷歌没有完全披露，但结合已知信息，主要来源于三个方向：

1. 内存带宽扩大：大模型推理的瓶颈常常不在算力，而在内存读取速度。第八代 TPU 进一步提升了 HBM（高带宽内存）的带宽。

2. 互连架构升级：多芯片协作时，数据传输效率提升了，理论峰值算力更容易被实际利用到。

3. 制程迭代：更先进的制程意味着同等功耗下，晶体管密度更高，运算能力更强。

二、对 AI 开发者意味着什么

2.1 Google Cloud 算力成本可能下降

TPU8i 每美元性能提升 80%，直接影响的是在 Google Cloud 上跑推理的成本。

如果你的业务在 GCP 上运行大模型推理（比如用 Vertex AI 调用 Gemini），这个提升意味着同样的预算能跑更多请求，或者同样的请求量花更少的钱。

2.2 自研芯片生态加速成形

谷歌不是唯一在做这件事的：

亚马逊：Trainium2（训练）+ Inferentia3（推理）
微软：Maia 2（与 OpenAI 联合使用）
阿里：倚天 + 含光 910B
百度：昆仑 3

云厂商都在绕过英伟达自研芯片，原因很直接：减少对英伟达的依赖，降低算力采购成本，掌握硬件层的主导权。

2.3 对框架和工具链的影响

目前 TPU 使用的主要是 JAX 框架（谷歌自家的），PyTorch XLA 也支持，但生态成熟度和 CUDA 没法比。

如果你的训练代码是 PyTorch 写的，迁移到 TPU 有一定门槛：

python

复制

复制代码

# PyTorch on GPU
device = torch.device("cuda")
model.to(device)

# PyTorch on TPU (需要 torch_xla)
import torch_xla.core.xla_model as xm
device = xm.xla_device()
model.to(device)
# 注意：TPU 上的调试比 GPU 更麻烦，建议先在 CPU 上跑通逻辑

主要坑点：

TPU 对动态计算图支持不好，最好用静态图
部分 PyTorch 算子在 TPU 上没有原生实现，会 fallback 到 CPU
数据加载管道需要重新优化，否则 TPU 会被饿到

三、英伟达真的会被取代吗

3.1 短期内不会

英伟达的护城河有三个：CUDA 生态、供应链、H100/H200/B200 的实际性能领先。

CUDA 是最难撼动的。过去十几年，PyTorch、TensorFlow 几乎所有的优化都是围绕 CUDA 做的。大量工程师的肌肉记忆、已有的代码库、成熟的调试工具------这些不是换一块更便宜的芯片就能解决的。

3.2 中长期有压力

但也要看清楚：

推理侧的竞争比训练侧激烈得多。推理是高频、规模化的，成本敏感度更高。TPU8i 在推理成本上的优势，会推动更多企业在推理场景选择 GCP。
Transformer 之后的模型架构还在演变。如果未来主流架构对矩阵乘法的依赖度变化，通用 GPU 和专用 TPU 的优劣势也会重新洗牌。
英伟达今年出货量受限（B200 供应紧张），云厂商自研芯片的替代压力在加大。

3.3 务实建议

如果你是开发者，现在不用急着迁移，但可以关注：

你的业务推理成本是不是主要开销？如果是，Google Cloud TPU 值得评估
你用的框架是不是 JAX？如果是，TPU 迁移成本很低
你的模型规模多大？超大模型（千亿参数以上）TPU Pod 有优势

四、总结

这次谷歌第八代 TPU 的发布，几个核心要点：

性能提升明显：训练提升 124%，推理提升 117%，推理成本效率提升 80%
英伟达短期无忧：CUDA 生态护城河没那么容易突破
云厂商自研芯片大势所趋：谷歌、亚马逊、微软、阿里都在做，算力竞争从芯片本身延伸到了整个基础设施层
推理侧是主战场：成本敏感的推理场景，是 TPU 们最有机会的切入点

英伟达的王座还在，但坐得没之前稳了。

你的业务有考虑过 TPU 替代方案吗？或者在 GPU vs TPU 选型上有踩过什么坑？欢迎评论区交流。