算力中心设备指南 (1):计算单元------从"全能经理"到"暴力施工队"
在算力中心(数据中心)里,最核心的当然是负责"思考"和"计算"的设备。
如果把处理数据比作盖楼房,那么不同的计算设备就是工地里不同工种的人员。
1. CPU (中央处理器) - "全能项目经理"
- 角色:公司的总经理,或者工地的项目经理。
- 特点 :
- 核心少而精:只有几十个核(员工),但每个员工都是博士学历(主频高、逻辑控制能力强)。
- 啥都能干:写文档、算账、指挥交通、处理复杂的逻辑判断(if-else)。
- 弱点:让他去搬两万块砖头(大规模简单的矩阵运算),他得一块一块搬,效率极低。
- 代表产品:Intel Xeon, AMD EPYC。
2. GPU (图形处理器) - "千人建筑施工队"
- 角色:原本是画画的(渲染游戏画面),现在是 AI 训练的主力军。
- 特点 :
- 人海战术 :单个核心(员工)学历不高(逻辑控制弱),但架不住他有 几千上万个 核心。
- 齐步走:CPU 经理一声令下:"把这堆砖从左边搬到右边!" 几千个 GPU 核心同时动手,一瞬间就干完了。
- AI 的天选之子:深度学习正好就是海量的、简单的矩阵乘法(搬砖),完美契合 GPU 的特性。
- 代表产品:NVIDIA H100/A100, AMD MI300。
3. TPU / NPU / ASIC - "特种兵 / 偏科天才"
- 角色:专门为特定任务设计的芯片。
- 特点 :
- 极度偏科:除了算 AI 模型(Tensor 操作),其他啥也不会。连开个网页都费劲。
- 极致效率:但在它擅长的领域里,它比 GPU 还要快,还要省电。就像专门练举重的运动员,搬重物比建筑工还厉害。
- ASIC:Application-Specific Integrated Circuit (专用集成电路)。
- 代表产品:Google TPU, 华为 Ascend (昇腾)。
4. AI 服务器 (AI Server) - "重型机械车间"
- 角色 :把上面这些东西组装在一起的超级怪兽。
- 构造 :
- 通常包含 2 颗最强的 CPU(正副经理)。
- 搭载 8 颗最强的 GPU(施工队主力)。
- NVSwitch / NVLink :这是施工队内部的超高速传送带,保证 8 个 GPU 之间交换数据没有延迟,仿佛合体变成了一个超级 GPU。
- 场景:一台这样的服务器(如 DGX H100),售价可能高达几百万人民币,是训练 ChatGPT 这种大模型的基本单元。
总结
- CPU:负责指挥、调度、处理复杂逻辑。(控制节点)
- GPU:负责出大力、做并行计算。(计算节点)
- AI 服务器:把它们封装在一起的超级计算机箱。