HBM = High Bandwidth Memory(高带宽显存)

HBM = High Bandwidth Memory(高带宽显存)

  • 一种用于 GPU、AI 加速器和高性能计算(HPC)的高速堆叠内存技术。
  • 比传统 GDDR 内存带宽更高、功耗更低。
  • 通过 TSV(硅通孔)实现多层 DRAM 堆叠。
  • 版本:HBM → HBM2 → HBM2E → HBM3 → HBM3E。
  • 常见于:NVIDIA H100、AMD MI300、TPU、AI ASIC 等。

使用 TSV(硅通孔)将多层 DRAM 垂直堆叠,并通过 超宽总线 与处理器(GPU/ASIC)相连,从而获得极高带宽、极低功耗的存储技术。

横向扩宽不如纵向堆叠更快。

与 GPU/AI 芯片的关系

HBM 通常通过 硅中介层 (Interposer) 与核心芯片绑定,一个 AI 芯片周围会放 4~12 颗 HBM 堆叠。

➡ 带宽由数据线数量决定,而不是频率

➡ HBM = 极宽的数据通道

为什么 HBM 对 AI 关键?

AI 的大模型训练/推理主要瓶颈是:

复制代码
算力不是最紧缺的,
内存带宽才是最大瓶颈(Memory Wall)

⚠ GPU 有成千上万 ALU

如果数据喂不够快 → ALU 空转 → 浪费功耗和硬件

HBM 解决两大问题:

✅ 高带宽喂数据

✅ 低功耗减少发热

所以 AI GPU = 算力(Tensor Core) + HBM(数据血液)

HBM 技术代际进化

世代 带宽/堆叠(单颗) 容量(单颗) 上市时间 应用
HBM (Gen1) ~128 GB/s 1--4GB 2015 Fury X
HBM2 ~256 GB/s 4--8GB 2017 数据中心 GPU
HBM2E ~450 GB/s 8--16GB 2020 AI/HPC 主流
HBM3 ~819 GB/s 16--24GB 2023 H100
HBM3E ~1.2 TB/s 24--36GB 2024+ B200, MI300
➡ 每一代几乎都在 带宽翻倍

目前顶级 GPU 可支持 8~12 颗 HBM

→ 单卡带宽达到 6~10TB/s


🔋 对比 GDDR6X

项目 GDDR6X HBM3
架构 横向布局 TSV 堆叠
带宽 ~1 TB/s(整卡) >5 TB/s(整卡)
功耗 ✅更低
成本 ✅便宜 🔺超贵
PCB 难度 需要硅中介层(复杂)
应用 游戏显卡 AI/HPC/数据中心

游戏不如 AI 需要极端带宽,所以消费卡仍主要用 GDDR。


💰 为什么 HBM 很贵?

主要原因 3 个:

成本来源 为什么贵
TSV 堆叠工艺 良率低,难制造
硅中介层 占芯片面积大,扩展难
供应链垄断 SK hynix、三星、镁光三家主导

目前高端 AI 服务器总成本中
HBM 占到 > 50%

因此 HBM 已成全球 AI 产业的关键战略资源


📍 谁最依赖 HBM?

公司 产品 HBM 用量
NVIDIA H100, B200 AI核心
AMD MI300 HBM巨量堆叠
Google TPU v4/v5 训练加速
华为 昇腾910B 国产AI核心
特斯拉 Dojo D1 大规模训练

没 HBM = 没高性能 AI

(也就是:谁掌握 HBM,谁掌握 AI 供血能力


📌 总结一句话

特性 HBM 价值
带宽 ✅超高(AI 的生命线)
功耗 ✅低(HPC 效率关键)
成本 ❌高(贵到离谱)
制造难度 ❌极难(供应卡脖子)

HBM = AI 战争中的"石油"和"血液"

相关推荐
whaosoft-1433 小时前
51c大模型~合集33
人工智能
johnny2333 小时前
ASR+TTS
人工智能
sight-ai3 小时前
OpenRouter vs. SightAI:统一入口,还是统一“智能体验”?
人工智能·开源·大模型·api
道可云3 小时前
政务AI大模型落地:聚焦四大场景,提升服务效率
人工智能·政务
机器之心3 小时前
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
人工智能·openai
lzptouch3 小时前
蚁群(Ant Colony Optimization, ACO)算法
人工智能·算法·机器学习
java_logo4 小时前
Docker 部署 CentOS 全流程指南
linux·运维·人工智能·docker·容器·centos
Clain4 小时前
Ollama、LM Studio只是模型工具,这款工具比他俩更全面
人工智能·机器学习·llm
wan5555cn4 小时前
中国启用WPS格式进行国际交流:政策分析与影响评估
数据库·人工智能·笔记·深度学习·算法·wps