最近朋友圈被刷屏了------台积电选了金刚石,英伟达也跟进,标题清一色写着「金刚石替代液冷」。
我看完的第一反应是:写这标题的人,大概没算过一道乘法。
金刚石确实猛。热导率 2000 W/m·K,铜的 5 倍,芯片端那一厘米的热阻直接压平。但问题是,热从芯片出来之后呢?还是得靠液冷管路带走。金刚石管的是「出门到路口」,液冷管的是「路口到城外」。两段串联,谁也替代不了谁。
更要命的是:金刚石越好,热越快涌到液冷侧,单相液冷反而越先见顶。
一、先搞懂一件事:热是怎么一层层传出去的
一颗 Vera Rubin GPU,TDP 2300W。这些热量要经过五层才能离开机房:
| 层级 | 从→到 | 核心材料/方案 | 瓶颈因素 |
|---|---|---|---|
| ① | Die → 背面基底 | CVD 单晶金刚石(2000+ W/m·K) | 材料热导率 |
| ② | 基底 → 冷板 | TIM + 铜底板 | 接触热阻 |
| ③ | 冷板内部 | 微通道 + 冷却液流动 | 流道设计 |
| ④ | 冷板出口 → CDU | 管路 + 泵组 | 流量 × 比热容 × ΔT |
| ⑤ | CDU → 室外 | 干冷器 / 冷却塔 | 环境温度 + 换热面积 |
金刚石把第①层的热阻压到铜的 1/5。意味着热更快、更集中地涌到第③④层。
类比:你把家门口的路从土路修成高速公路(金刚石),车流量暴增。但城市主干道(液冷管路)没扩容,堵车只会更严重。
二、单相液冷的天花板,一道乘法就够了
液冷系统带走热量的公式非常简单:
Q = ṁ × Cp × ΔT
| 符号 | 含义 | 典型值 |
|---|---|---|
| Q | 带走的热量(kW) | 要算的 |
| ṁ | 质量流量(kg/s) | 取决于管径、泵功率 |
| Cp | 比热容(kJ/kg·°C) | 水≈4.18;25%乙二醇≈3.6 |
| ΔT | 进出水温差(°C) | 设计通常取 10-15°C |
代入你的参数算一下:
假设你的机柜是标准单相冷板方案:
- • 供水 45°C,回水 55°C → ΔT = 10°C
- • 冷却液:25% 丙二醇水溶液,Cp ≈ 3.8 kJ/kg·°C
- • 单机柜设计流量:25 L/min(常见中高配)
换算:25 L/min ≈ 0.42 kg/s
Q = 0.42 × 3.8 × 10 = 15.96 kW
等等,这也太低了?
没错,这只是单路冷板的值。一个机柜通常有 4-8 路并联冷板(对应 4-8 张 GPU 卡),总流量翻倍。
如果整柜 8 路并联、总流量 150 L/min(2.5 kg/s):
Q = 2.5 × 3.8 × 10 = 95 kW
这就是你这个配置下的物理天花板------不是设备质量问题,是水的比热容和管径限死的。
三、天花板在哪里开始不够用?
| 场景 | 单柜热负载 | 150L/min 能否覆盖 | 结论 |
|---|---|---|---|
| 8×H100(700W) | ≈56 kW(含其他组件) | ✅ 有余量 | 单相足够 |
| 8×GB200(1200W) | ≈100 kW | ⚠️ 刚好踩线 | 需要加大流量或管径 |
| 8×Vera Rubin(2300W) | ≈190 kW | ❌ 物理不够 | 必须换方案 |
当你想把流量从 150 L/min 加到 300 L/min 来覆盖 190 kW 时,会遇到三堵墙:
-
- 管径:¾" 管在 300 L/min 下流速超 4 m/s,噪音、振动、管路疲劳全来了
-
- 泵功耗:流量翻倍,泵功耗约翻 4 倍(立方关系),PUE 直接恶化
-
- 接头风险:流速越高,密封件磨损越快------还记得上周那篇「一滴冷却液烧掉 2000 万」吗?
结论:单相冷板液冷的实际工程天花板大约在 80-120 kW/柜。 超过这个值,不是不能做,是成本和风险急剧上升。
四、金刚石 + 两相:下一代散热链的完整答案
两相液冷的核心优势不是换了一种液,而是利用了相变潜热:
| 对比项 | 单相(水/乙二醇) | 两相(氟化液蒸发) |
|---|---|---|
| 带热原理 | 升温:Q = ṁ×Cp×ΔT | 蒸发:Q = ṁ×hfg |
| 同流量带热量 | 1× | 3-5×(取决于工质潜热) |
| 温度均匀性 | 进出口有梯度 | 蒸发段近乎等温 |
| 200kW/柜所需流量 | ≈350 L/min | ≈70-120 L/min |
当金刚石把芯片端热阻打通,热以更高密度涌到冷板侧,两相液冷用更小的流量就能带走同样的热量------泵更小、管更细、接头更少、漏液风险更低。
以冷泉能控两相冷板方案的实测数据为例:同样 120kW 负载,液路流量仅为单相方案的 1/3,管路接头数减少 40%,系统漏液概率随之大幅下降。
这不是「两相替代单相」,而是:芯片密度越高,金刚石 + 两相的串联组合越有物理必然性。
五、给运维和集成商的选型分界线
不用猜,算就行了。把你的机柜参数代入:
| 你的情况 | 推荐路线 | 原因 |
|---|---|---|
| 单柜 < 80 kW | 单相冷板 | 成熟稳定,TCO 最优 |
| 单柜 80-120 kW | 单相冷板 + 加粗管径 + 冗余泵 | 可以做但成本开始上升 |
| 单柜 > 120 kW | 两相冷板 / 浸没 | 物理必选,别硬撑单相 |
一句话:算出你的 Q = ṁ × Cp × ΔT,看够不够。不够就别加泵了------换轨道。
FAQ
Q:金刚石散热这么强,是不是以后不需要液冷了?
A:不是。金刚石解决的是芯片Die到冷板这一段(热导率层面),液冷解决的是冷板之后到室外的带热能力(流量层面)。两者串联,缺一不可。金刚石越好、芯片功耗越大,对液冷系统的流量要求反而越高。
Q:我的机柜现在是 60kW,需要担心单相见顶吗?
A:60kW 在 150 L/min、ΔT=10°C 的标配下有余量(天花板约 95kW)。但如果未来两年内有扩容到 8 卡 GB200 级别的计划(~100kW),建议现在就预留管径升级空间,避免后期改造。
Q:两相液冷成本是不是比单相贵很多?
A:冷板式两相的设备成本约比单相高 15-25%,但在 >100kW 场景下,单相需要更大管径、更多泵组、更高电费来维持流量------总拥有成本(TCO)反而可能更高。分界线大约在 80-120 kW/柜。
Q:公式里的 ΔT 能不能调大,比如做到 20°C?
A:理论上可以,ΔT 加大意味着回水温度升高(比如 45→65°C)。但这会导致冷板表面温度上升,GPU 结温逼近极限,降频风险增加。工程上通常不建议 ΔT 超过 15°C。