Rubin 这一代,材料名词突然变多了:die 端 石墨烯 / 金刚石 、lid 和冷板之间 石墨片 TIM 、冷板里 百微米级微通道 、接触面 镀金 、一次侧 45℃ 温水 、机柜 100% 液冷......
朋友圈很容易读成:「黑科技大爆发,液冷又要革命。」
我更愿意读成另一句话:单相的天花板没动,为了把 2300W 塞进同一套物理,每一层都是在加价换最后一截热阻。 和 6/17 那篇 是同一逻辑的下文------那篇用乘法算 天花板在哪 ;这篇看 顶在天花板下,还要多付哪些代价。
一、天花板没动:还是那一道乘法
单相直冷带走热量,底层公式没变:
Q = ṁ × Cp × ΔT
水(或 PG25 水液)的 Cp 就那么大 ;ΔT 工程上通常压在 10--15°C 附近(再拉大,结温、泵功、可靠性一起恶化);ṁ 受管径、泵、接头限制------6/17 文 里算过,典型配置下 整柜能扛多少 kW 是有数的。
8×2300W 光 GPU 就 ~184 kW ,还没算 CPU、网络和 PD。要在 单相 里扛这一档,不是「再优化一下冷板就行」,而是 在公式不变的前提下,把公式左边每一项能挤的都挤到极限。
两相为什么没在这代全面换? 6/18 SpaceX 深度 讲过交付侧逻辑:定型窗口里能批量交付的仍是单相链路 。所以 Rubin 的故事,不是「单相更强了」,是 「单相还在,但堆栈厚了数倍」。
二、每一层「升级」,买的是什么、还剩多少边际
可以把 Rubin 相对 Blackwell / GB300 的散热增量,理解成 在同一物理天花板下,分段采购的热阻下降 ------但 每一段花的钱和复杂度,不成比例地涨。
| 堆栈段 | Rubin 2300W 上多做了什么(公开/产业口径) | 实际买到什么 | 边际效应 |
|---|---|---|---|
| Die → 封装 | 更高导热 TIM1(石墨烯/金刚石等叙事) | 压低 芯片侧 几 mm 热阻 | 前几 W 很值;热更快涌到冷板(F21:路修宽了,城门口更堵) |
| Lid → 冷板 | 硅脂 → 液金属(未成)→ 石墨片 TIM2 | 压低 界面接触热阻 | 必须做;再往下挤,qual 成本陡增(泄漏、腐蚀、改 lid) |
| 冷板内部 | MCCP 微通道(流道节距 ~150→100 μm 量级) | 压低 冷板内热阻 | 2300W 的关键增量 ;但加工、检腔、良率 单价可上几倍(产业稿常见 3--5× 量级) |
| 冷板界面 | 接触面 镀金 等工艺 | 可靠性 / 腐蚀防护 | 对 极限 W 帮助有限,对 可交付 帮助大 |
| 机柜 | 100% 液冷tray、大冷板回归、stiffener 加强 | 减风道混路、减 QD、减翘曲 | 不是提高 Cp,是 别让单相链路在系统侧先断 |
| 一次侧 | **45℃**温水、干冷器友好(NVIDIA 6/21 官宣) | 降 facility 能耗 | 几乎不抬高 Q 天花板------换的是 PUE / Chiller,不是 ṁ×Cp×ΔT |
读这张表的方式:
- • 越往上(die 端、TIM),每花 1 块钱,早期收益高 ,但会把热 更快推给冷板和管路------单相主战场反而更挤。
- • 越往下(微通道、机柜、一次侧),是在极限功率下「别爆仓」 ;微通道之后,产业叙事已经在谈 MLCP / 更一体结构 ------说明 冷板这一段的边际也在变薄。
- • 45℃ 很亮,但别误会 :它解决的是 「热最终往哪排、要不要冷水机」 ,不是 「2300W 怎么从 die 上抠下来」。
这就是 边际效应递减 :物理天花板悬在头顶,材料栈可以一层层加,每加一层,下一层更难、更贵、良率更敏感。
三、不是「黑科技清单」,是「单相加价包」
如果把 Rubin 散热看成商品,Blackwell 时代是 「标准单相套餐」 ;Rubin 2300W 是 「单相极限套餐」------
- • TIM 升级:界面不能再省
- • MCCP:宏观流道不够了,必须上微米级
- • 整柜 100% 液冷:风冷混路在功率密度下是漏洞
- • 45℃:一次侧帮 PUE,不帮突破乘法
- • 镀金、stiffener、检测 :让极限结构 能出厂、能跑三年
所以供应链里才会出现:热栈定型改 TIM、改 lid、推量产 ------不是 Rubin「不行」,是 在单相里硬顶 2300W,工程余量被吃光了。
和两相的关系(不站队): 两相改的是 工质侧相变潜热 ,是 换一条 Q 的算法 ;Rubin 这代是在 不改算法的前提下把加减法做到头 。下一代功率再上一档,边际堆栈还能不能续,才是选型问题------不是「谁更先进」的口号。
工程上我们见过一种分界:单相把 MCCP、管径、泵功 加到顶之后,再往上挤 往往只剩 throttle 线上的余量 。在 120kW 级存量改造 POC 里,冷泉能控 对比过同负载下单相 vs 冷板式两相 ------两相侧液路流量大约只需单相的 1/3 ,QD/接头数可少 约 40% ,不是魔法,是 hfg 换掉了对 ṁ 的硬需求 。这和 Rubin 2300W 平台仍选单相交付 不矛盾:平台定型是一回事,你的机房功率档有没有顶到单相加价包尽头,是另一回事。
四、对机房和集成商:拆 BOM,先问三句
Rubin 这一代,材料名词一多,采购很容易掉进同一个坑:把 石墨烯、MCCP、45℃、100% 液冷 当成并列的「升级勾选框」------名词勾得越多,好像散热越强。
前面几节其实只讲一件事:单相乘法没变,2300W 是把堆栈一层层加厚。 拆报价、做选型,比背名词清单有用的,是下面三句。
① 你的柜,乘法还算得过吗?
6/17 文 里代入 ṁ 和 ΔT,整柜能扛多少 kW 有上限 。8×2300W 光 GPU 就 ~184 kW ------这不是「再上一块冷板」能抹平的缺口,而是 公式右边已经顶格 。先算这一道,再谈要不要接 Rubin 这档功率;算不过,后面堆 TIM、堆微通道,都是在 更窄的余量里加价。
② 加钱的部分,落在堆栈哪一段?
第二节那张表就是 对账清单:
- • Die 端叙事、TIM2 → 挤的是 芯片到冷板 几 mm 热阻;
- • MCCP、stiffener → 挤的是 冷板内部和机柜链路 ,2300W 的 关键增量 在这里;
- • 45℃ 温水 → 动的是 一次侧 PUE ,几乎不抬高ṁ×Cp×ΔT。
③ 下一层,边际还值不值?
微通道之后,产业稿已经在谈 MLCP、更一体结构 ------说明 冷板这一段再加料,每多 1W 越贵 。再往上(Ultra 等),买的往往不是「又强一截」,而是 throttle 线上更窄的一截余量,附带良率、检测、返工风险跳变。
收束一句: Rubin 2300W 不是「液冷 2.0」,是在 单相物理不变 的前提下,把 TIM → 微通道 → 整柜链路 堆到极限档------边际递减写在 BOM 和良率里,不在朋友圈的名词密度里。
FAQ
Q:和 6/17 乘法文什么关系?
A:那篇 算天花板 ;这篇 算顶在天花板下还要堆什么。建议先看乘法,再看加价包。
Q:45℃ 算不算「突破单相」?
A:算 一次侧优化 ,不算 突破 ṁ×Cp×ΔT。别因为温水就以为 chip 侧好办了。
Q:所以该不该上 Rubin 单相?
A:本文不给站队。按 ① 乘法余量 → ② 堆栈分段对账 → ③ 下一层边际 三句,看边际成本在你项目里算不算得过账。
往期:
#AI算力 #液冷技术 #单相液冷 #Rubin #边际效应 #冷泉能控 #AI与液冷