【IC】3D DRAM堆叠的互连方式

Olafur_zbj2025-12-24 8:37

如果要在芯片上垂直堆叠 DRAM（3D DRAM / 3D-IC），传统的 SerDes 或 DDR 物理层都太"重"了。

在这种极度紧密（几微米间距）的垂直互连中，最佳选择只有两条路：UCIe-3D 或 私有超宽并行总线。

1. 首选方案：UCIe-3D (标准路线)

如果你希望你的 3D 堆叠方案具有通用性（比如你的 GPU 可以叠长鑫的 DRAM，也可以叠其他厂的），那么 UCIe-3D 是目前唯一的标准答案。

物理层特点：
- 极高密度 ：专门针对 Hybrid Bonding (混合键合) 优化，凸点间距 (Bump Pitch) 可以做到 < 10μm。这意味着每平方毫米可以有 10,000+ 个连接点。
- 极简电路：因为距离只有几微米，几乎不需要驱动能力。发送端甚至就是一个简单的反相器 (Inverter)，接收端也是。
- 极低功耗 ：功耗可以低至 0.1 pJ/bit 以下，几乎可以忽略不计。
- 时钟：采用同步时钟（直接把时钟信号垂直打上去），不需要 CDR，不需要训练，甚至不需要复杂的对齐。
优势：生态好，未来 DRAM 厂商可能会直接卖"支持 UCIe-3D 的 DRAM 晶圆"。

2. 激进方案：私有超宽并行总线 (Proprietary Ultra-Wide Bus)

如果你是像苹果、华为、特斯拉这样自己全包圆（自己设计 GPU，自己找代工，自己定制 DRAM）的厂商，你完全可以抛弃标准，做一个极致的私有接口。

设计思路 ：把 DRAM 的内部总线直接暴露给逻辑芯片。
- 普通 DRAM 内部其实有几千位宽的数据通路（比如 4096 bit），但为了通过有限的引脚传出来，不得不做并转串（Serializer）。
- 在 3D 堆叠中，你可以直接把这 4096 根线垂直打穿连接到下方的 GPU 上。
- 物理层 ：纯导线。除了简单的 ESD 保护和电平转换外，几乎没有任何物理层电路。逻辑芯片直接读写 DRAM 的 Capacitor Array（电容阵列）。
案例：
- Graphcore IPU 的 WoW 方案就是类似的思路。
- AMD 3D V-Cache：虽然它是 SRAM 堆叠，但原理一样。它没有用复杂的 PHY，而是直接把 L3 Cache 的数据线垂直连下来。

3. 为什么不用 DDR 或 HBM 的 PHY？

因为太浪费了。

面积浪费：DDR/HBM 的 PHY 包含了大量的 IO Pad、ESD 保护、驱动器、端接电阻。这些东西在 3D 堆叠中都是累赘，占用的硅片面积可能比数据线本身还大。
延迟浪费 ：经过 PHY 就意味着要有序列化、编码、解码。对于 3D 堆叠这种"零距离"接触，最好的 PHY 就是没有 PHY（直连）。

总结建议

如果为了 Workaround (短期救急) ：
- 可能会采用 UCIe-3D 或者类 UCIe 的简化版协议。因为这样可以复用现有的 Chiplet IP，研发周期短。
如果为了追求极致性能 (长期布局) ：
- 会走向 "无 PHY 直连"。即逻辑芯片的控制器直接驱动上层 DRAM 的存储单元，把两颗芯片当成一颗芯片来设计。这需要极强的协同设计 (Co-Design) 能力。

上一篇：【原创实践】使用 Docker 在 MySQL 容器中批量导出所有数据库

下一篇：豆包+即梦AI+剪映生成ai视频

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03CC-Switch & Claude 基于 Linux 服务器安装使用指南 04用了半年 OpenRouter，我换到了 Ofox.ai — 两个 AI API 聚合平台的真实对比 05裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 06Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 07【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 08几个好用的ip纯净度检测网站 09【AI】2026 年具身智能模型和世界模型总结 10codex app每次打开重连5次Reconnecting问题解决