谷歌云AI 时代的算力革命：CPU、GPU 到 TPU 的架构与定位解析

[1. CPU：逻辑控制的"总司令官"及其并行局限性](#1. CPU：逻辑控制的“总司令官”及其并行局限性)

[2. GPU：通过"人海战术"实现大规模并行计算](#2. GPU：通过“人海战术”实现大规模并行计算)

[3. TPU：针对深度学习的专用芯片（ASIC）](#3. TPU：针对深度学习的专用芯片（ASIC）)

现在这年代，技术日新月异，物联网、人工智能、深度学习等概念遍地开花，各类芯片名词 GPU, TPU, NPU, DPU 层出不穷。要理解这些专业芯片，首先需要理解传统的核心------中央处理器（CPU）及其架构。

CPU (Central Processing Unit, 中央处理器) 是机器的"大脑"，负责布局谋略、发号施令、控制行动的"总司令官"。

1.1 架构与执行模式

CPU 的结构主要包括运算器（ALU）、控制单元（CU）、寄存器、高速缓存器（Cache）。

计算单元（ALU）：执行算术运算、移位等操作。

控制单元（CU）：对指令译码，发出操作控制信号。

存储单元（Cache/Register）：保存运算数据和指令。

CPU 遵循冯诺依曼架构，其核心理念是：存储程序，顺序执行。这意味着它像一个一板一眼的管家，总是一步一步地顺序完成任务。

1.2 并行计算的局限

由于 CPU 的架构中，负责计算的运算器（ALU）只占据了很小一部分空间，而大量的空间用于放置缓存和控制单元。这种结构决定了性质：CPU 更擅长于逻辑控制和不同数据类型的复杂运算，但在大规模并行计算能力上极受限制。随着对更快处理速度的需求增加，CPU 的顺序执行模式逐渐变得力不从心。

为了突破 CPU 在并行计算上的瓶限，GPU（Graphics Processing Unit，图形处理器）应运而生。

2.1 并行计算的概念

并行计算是指同时使用多种计算资源解决计算问题的过程。它通过将问题分解成若干部分，由多个处理器并行计算，是提高计算速度的有效手段。

时间并行（流水线技术）：同一时间启动多个操作，如工厂流水线。

空间并行（多处理器并发）：多个处理机并发执行计算，将一个大任务分割成多个相同的子任务。GPU 采用的正是这种空间并行的策略。

2.2 GPU 的架构优势与通用化

GPU 之所以擅长处理图像数据（每个像素点的处理过程相似），正是因为它在架构上进行了优化：它拥有数量众多的简单计算单元 (ALU) 和超长的流水线，非常适合处理大量的类型统一的数据，这是一种典型的"人海战术"。

与 CPU 相比，GPU 的缓存很少，且主要用于为线程服务。GPU 无法单独工作，必须由 CPU 控制调用。虽然 GPU 是为图像处理而生，但其结构优化使其能够被应用于科学计算、金融分析、海量数据处理等需要大规模并行计算的领域，因此 GPU 也可以被视为一种较通用的芯片。

虽然 CPU 和 GPU 都是通用芯片，但"万能工具的效率永远比不上专用工具"。为实现更高的处理速度和更低的能耗，ASIC（专用集成电路）概念应运而生。

TPU（Tensor Processing Unit, 张量处理器）就是谷歌专门为加速深层神经网络运算能力而研发的一款 ASIC。谷歌庞大的业务体量（图像搜索、谷歌翻译等）对深度学习芯片产生了规模化需求，使得开发专用芯片具备了商业可行性。

性能飞跃：据称，TPU 与同期的 CPU 和 GPU 相比，可以提供 15-30 倍的性能提升，以及 30-80 倍的效率（性能/瓦特）提升。

架构优化：TPU 性能强大的关键在于：

巨大片上内存：在芯片上使用了高达 24MB 的局部内存，有效减少了片外内存访问（GPU 能效比低的罪魁祸首）。

低精度运算：采用了 8 比特的低精度运算，带来了更低的功耗、更快的速度和更小的芯片面积需求。

从初代的仅支持推理，到第二代支持训练和推理，TPU 已在 Google 的 RankBrain（搜索结果处理）、街景 Street View，以及著名的 AlphaGo 等人工智能系统中发挥了核心作用。