HBM = High Bandwidth Memory(高带宽显存)
- 一种用于 GPU、AI 加速器和高性能计算(HPC)的高速堆叠内存技术。
- 比传统 GDDR 内存带宽更高、功耗更低。
- 通过 TSV(硅通孔)实现多层 DRAM 堆叠。
- 版本:HBM → HBM2 → HBM2E → HBM3 → HBM3E。
- 常见于:NVIDIA H100、AMD MI300、TPU、AI ASIC 等。
使用 TSV(硅通孔)将多层 DRAM 垂直堆叠,并通过 超宽总线 与处理器(GPU/ASIC)相连,从而获得极高带宽、极低功耗的存储技术。
横向扩宽不如纵向堆叠更快。
与 GPU/AI 芯片的关系
HBM 通常通过 硅中介层 (Interposer) 与核心芯片绑定,一个 AI 芯片周围会放 4~12 颗 HBM 堆叠。
➡ 带宽由数据线数量决定,而不是频率
➡ HBM = 极宽的数据通道
为什么 HBM 对 AI 关键?
AI 的大模型训练/推理主要瓶颈是:
算力不是最紧缺的,
内存带宽才是最大瓶颈(Memory Wall)
⚠ GPU 有成千上万 ALU
如果数据喂不够快 → ALU 空转 → 浪费功耗和硬件
HBM 解决两大问题:
✅ 高带宽喂数据
✅ 低功耗减少发热
所以 AI GPU = 算力(Tensor Core) + HBM(数据血液)
HBM 技术代际进化
| 世代 | 带宽/堆叠(单颗) | 容量(单颗) | 上市时间 | 应用 |
|---|---|---|---|---|
| HBM (Gen1) | ~128 GB/s | 1--4GB | 2015 | Fury X |
| HBM2 | ~256 GB/s | 4--8GB | 2017 | 数据中心 GPU |
| HBM2E | ~450 GB/s | 8--16GB | 2020 | AI/HPC 主流 |
| HBM3 | ~819 GB/s | 16--24GB | 2023 | H100 |
| HBM3E | ~1.2 TB/s | 24--36GB | 2024+ | B200, MI300 |
| ➡ 每一代几乎都在 带宽翻倍 |
目前顶级 GPU 可支持 8~12 颗 HBM
→ 单卡带宽达到 6~10TB/s!
🔋 对比 GDDR6X
| 项目 | GDDR6X | HBM3 |
|---|---|---|
| 架构 | 横向布局 | TSV 堆叠 |
| 带宽 | ~1 TB/s(整卡) | >5 TB/s(整卡) |
| 功耗 | 高 | ✅更低 |
| 成本 | ✅便宜 | 🔺超贵 |
| PCB 难度 | 中 | 需要硅中介层(复杂) |
| 应用 | 游戏显卡 | AI/HPC/数据中心 |
游戏不如 AI 需要极端带宽,所以消费卡仍主要用 GDDR。
💰 为什么 HBM 很贵?
主要原因 3 个:
| 成本来源 | 为什么贵 |
|---|---|
| TSV 堆叠工艺 | 良率低,难制造 |
| 硅中介层 | 占芯片面积大,扩展难 |
| 供应链垄断 | SK hynix、三星、镁光三家主导 |
目前高端 AI 服务器总成本中
HBM 占到 > 50%
因此 HBM 已成全球 AI 产业的关键战略资源
📍 谁最依赖 HBM?
| 公司 | 产品 | HBM 用量 |
|---|---|---|
| NVIDIA | H100, B200 | AI核心 |
| AMD | MI300 | HBM巨量堆叠 |
| TPU v4/v5 | 训练加速 | |
| 华为 | 昇腾910B | 国产AI核心 |
| 特斯拉 | Dojo D1 | 大规模训练 |
没 HBM = 没高性能 AI
(也就是:谁掌握 HBM,谁掌握 AI 供血能力)
📌 总结一句话
| 特性 | HBM 价值 |
|---|---|
| 带宽 | ✅超高(AI 的生命线) |
| 功耗 | ✅低(HPC 效率关键) |
| 成本 | ❌高(贵到离谱) |
| 制造难度 | ❌极难(供应卡脖子) |
HBM = AI 战争中的"石油"和"血液"